Normallik için neyi kontrol etmeliyim: ham veri mi, artık mı?


27

Ham veriler üzerinde değil de artıklarında normalliği test etmem gerektiğini öğrendim. Artıkları hesaplamalı mıyım ve sonra Shapiro-Wilk'ün W testi yapmalı mıyım?

Artıklar şu şekilde hesaplanıyor mu: ?Xben-anlamına gelmek

Lütfen verilerim ve tasarım için bu önceki soruya bakınız .


Bunu yazılımı kullanarak mı yapıyorsunuz (ve eğer öyleyse hangi yazılımı kullanıyorsunuz) veya hesaplamaları elle mi yapmaya çalışıyorsunuz?
Chris Simokat

@ Chris Simokat: Bunu R ve Statistica ile yapmaya çalışıyorum ...
stan

3
Bu soru ilginizi çekebilir: eğer artıklar varsa-normalde dağılmış- ama-y-değil ; ayrıca, ham verinin mi yoksa artıkların mı normallik gerekip gerekmediği konusunu da kapsar.
gung - Reinstate Monica

1
Maalesef, bunu farklı durumlarda otomatik olarak nasıl yapacağınızı bilecek kadar SAS konusunda yeterince anlayışlı değilim. Bununla birlikte, bir regresyon çalıştırdığınızda, artıkları bir çıktı veri setine kaydedebilmelisiniz, ve sonra bir qq grafiği çizilebilir.
gung - Monica

1
Karen Grace-Martin'den iyi bilgi: bu ve bu
stan

Yanıtlar:


37

Neden normallik testi yapmalısınız?

Doğrusal regresyonda standart varsayım, teorik artıkların bağımsız ve normal olarak dağılmış olmasıdır. Gözlenen artıklar teorik artıkların bir tahminidir, fakat bağımsız değildir (bazı bağımlılığı ortadan kaldıran ancak hala gerçek artıkların yaklaşık bir değerini veren artıklarda dönüşümler vardır). Dolayısıyla, gözlemlenen artıklar üzerinde yapılan bir test, teorik artıkların eşleşeceğini garanti etmez.

Teorik artıklar normalde tam olarak dağılmamışsa, ancak örneklem büyüklüğü yeterince büyükse, Merkezi Limit Teoremi normal çıkarımın (normallik varsayımına dayanan test sonuçları ve güven aralıkları, ancak mutlaka tahmin aralıkları değil) hala doğru olacağını söyler. .

Ayrıca, normallik testlerinin kural dışı testler olduğunu unutmayın, verilerin normal bir dağıtımdan gelme ihtimalinin düşük olduğunu söyleyebilirler. Ancak test, verilerin normal bir dağılımdan geldiği anlamına gelmeyen anlamlı değilse, farkı görmeniz için yeterli gücünüzün olmadığı anlamına da gelebilir. Daha büyük örneklem büyüklükleri normal olmayanlığı tespit etmek için daha fazla güç verir, ancak daha büyük örnekler ve CLT normal olmayanlığın en az önemli olduğu anlamına gelir. Bu nedenle küçük örneklem büyüklükleri için normallik varsayımı önemlidir ancak testler anlamsızdır, büyük örneklem büyüklükleri için testler daha kesin olabilir, fakat kesin normallik sorunu anlamsız hale gelir.

Bu yüzden yukarıdakilerin hepsini birleştirerek, kesin bir normallik testinden daha önemli olan, nüfusun normale yeterince yakın olup olmadığını anlamak için verilerin arkasındaki bilimi anlamaktır. Qqplot gibi grafikler iyi bir teşhis olabilir, ancak bilimi anlamak da gereklidir. Aykırı değerler için çok fazla çarpıklık veya potansiyel olduğuna dair bir endişe varsa, normalite varsayımını gerektirmeyen parametrik olmayan yöntemler kullanılabilir.


6
İlk satırdaki soruyu cevaplamak için: Yaklaşık normallik, ANOVA'da F testleri uygulamak ve varyanslar etrafında güven sınırları oluşturmak için çok önemlidir. (+1) iyi fikirler için.
whuber

4
@whuber, evet yaklaşık normallik önemlidir, ancak testler yaklaşık normallik test eder. Ve büyük numune boyutları için yaklaşık değerin çok yakın olması gerekmez (testlerin reddetme olasılığı en yüksektir). F-testlerini (veya diğer normal temelli çıkarımları) kullanarak haklı çıkarırsanız, verileri üreten bilimin iyi bir arsa ve bilgisi, resmi bir normallik testinden çok daha faydalıdır.
Greg Snow

Greg, tamam Dağıtım uydurma yapıyorum ve verilerimin Beta veya Gama dağıtımından geldiğini ve ne yapmalıyım? Gauss kanununu üstlenen ANOVA?
Stan

2
(+1) Sonunda bu iyi gitti. (A) bir normallik varsayımına dayanan regresyon ve (b) parametrik olmayan prosedürler arasından seçim yapmanız gerekmez. Regresyondan önceki dönüşümler ve / veya genelleştirilmiş doğrusal modeller sadece iki ana alternatiftir. İstatistiki modelleme hakkında her şeyi özetlemeye çalışmadığınızı anlıyorum, ancak son kısım biraz büyütülebilir.
Nick Cox

Öyleyse, sonunda, doğrusal regresyonda, ham verilerin normalliğini veya artıkların normalliğini test etmeliyiz?
vasili111

7

Gauss Asuumptions, modeldeki artıkları ifade eder. Orijinal veriler için gerekli varsayım yoktur. Günlük bira satışlarının dağılımına işaret eden bir örnek olarak; görüntü tanımını buraya girinMakul bir modelden sonra haftanın günü, tatil / etkinlik etkileri, seviye değişimleri / zaman eğilimlerini yakaladık.görüntü tanımını buraya girin


cevabın için teşekkürler. Verilerimizi Gauss dağılımına dönüştürebileceğimizi söylemek istersiniz ...?
stan

3
Stan, modellemenin rolü tam olarak bunu yapmaktır, böylece çıkarım yapılabilir ve hipotezler test edilebilir.
IrishStat

6

Öncelikle, burada genel bir anlam elde etmek için bir QQ arsa kullanarak "göz küresi" yapabilirsiniz .

R kılavuzuna göre veri vektörünüzü doğrudan shapiro.test () işlevine aktarabilirsiniz.

Artıkları kendiniz hesaplamak istiyorsanız, evet, kalanların her biri gözlem kümeniz üzerinden bu şekilde hesaplanır. Burada daha fazla görebilirsiniz .


Bu yüzden, Normallik için yöntemler anladığım kadarıyla, aslında ham verilerimizin kalıntılarının normalliklerini kontrol ediniz. Bunu otomatik olarak yaparlar ve artıkları hesaplamamalı ve teste tabi tutmamalıyız. Ve her günkü konuşmamızda, verilerimin artıklarının "normal" olduğu varsayımıyla genellikle "verilerim normal olarak dağıtılıyor" a geçiyoruz. Lütfen düzelt beni.
stan

6
Son noktanla aynı fikirde değilim. Verilerimin normalde dağıldığını söyleyen insanlar genellikle artıklara atıfta bulunmazlar. Bence insanlar bunu söylüyor, çünkü her istatistiksel prosedürün tüm verilerin normal olmasını gerektirdiğini düşünüyorlar.
Glen

@ Glen açıkçası konuşuyorum (yanlış) şu ana kadar aynı düşünüyorum ... Gama ya da betaya sahipsem ya da dağıtılmış veri ne olursa olsun, normalde olduğu gibi istatistiklerini yapmam gerekiyorsa, anlayamıyorum (bu benim sorunum) doğru / doğal dağılıma rağmen dağılmış mı? Ve dağıtım gerçeği sadece endikasyon için mi? Bu siteden önce yalnızca Gauss dağılımını biliyordum ...
stan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.