Küçük numuneler için uygun normallik testleri


22

Şimdiye kadar, küçük örneklerde normallik varsayımlarını test etmek için Shapiro-Wilk istatistiği kullanıyorum.

Başka bir teknik önerebilir misiniz?


1
İşte muhtemel diğer ilgi birkaç soru vardır: -normallik-test ediyor-esasen-yararsız , normallik testi değerinin bir tartışma için, & what-if-artıklar-normalde dağıtılmış-ancak-y-IS- değil , normalliğin doğrusal bir model varsayımı olduğu duygusunu tartışmak / açıklamak için değil .
gung - Monica'yı eski durumuna döndürün

3
Shapiro-Wilk'taki Wilk, Martin B. Wilk'a atıfta bulunur. Özellikle "Wilks" yazmak çok kolay (a) eğer başka biri bunu söylediyse veya yazdıysa ve (b) kopyaladığınız (S.) oldukça farklı bir kişi olan Samuel S. Wilks'in istatistiklerindeki çalışmaları biliyorsunuz. çoğul (istatistik, kedi, köpek, ...) ve ilk dili İngilizce olanlarda bile yaygın olan sahiplik (ler) için diğer kullanımları göz önüne alındığında, İngilizce terminal "leri" hakkında karıştı. Bu konuyu yapabildiğim kadar düzenledim; Yorumlara ulaşamıyorum.
Nick Cox

Yanıtlar:


24

FBasics R (parçası paket Rmetrics ) içeren çok sayıda normallik testleri popüler çoğunu kapsayan, frequentist testleri normallik testleri için bir sarıcı ile birlikte - Kolmogorov-Smirnov, Shapiro-Wilk, Jarque-Bera ve D'Agostino - en kuzeydeki pakette - Anderson – Darling, Cramer – von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson ki kare ve Shapiro – Francia. Paket dokümantasyonu ayrıca tüm önemli referansları sağlar. İşte testlerin en kuzeyden nasıl kullanılacağını gösteren bir demo .

Zamanınız varsa, bir yaklaşım birden fazla test kullanmak ve anlaşma olup olmadığını kontrol etmektir. Testler çeşitli şekillerde farklılık gösterir, bu nedenle "en iyi" yi seçmek tamamen kolay değildir. Alanınızdaki diğer araştırmacılar ne kullanıyor? Bu değişebilir ve diğerlerinin çalışmanızı kabul etmesi için kabul edilen yöntemlere bağlı kalmak en iyisi olabilir. Sık sık Jarque-Bera testini kısmen bu nedenle ve Anderson – Darling'i karşılaştırma için kullanıyorum.

Sen bakabilirsiniz "Tekdeğişkenli Normallik için Testler Karşılaştırılması" (2002 Seier) ve "normallik çeşitli testlerin karşılaştırılması" konularında bir karşılaştırması ve tartışma için; (2007 Yolaçan Yazıcı'nın).

Tüm dağıtım fonksiyonları sayesinde, bu yöntemleri R'de karşılaştırmak için test etmek de önemsizdir . Simüle edilmiş verilerle basit bir örnek (yerden tasarruf etmek için sonuçları yazdırmayacağım), ancak daha tam bir açıklama gerekli olacaktır:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Farklı dağılımlar üzerinde yapılan çeşitli testlerin sonuçlarını aldıktan sonra, hangilerinin en etkili olduğunu karşılaştırabilirsiniz. Örneğin, yukarıdaki Jarque-Bera testi için p değeri normal dağılım (kabul) için 0.276 ve cauchy için (2.2 hipotezi reddederek) <2.2e-16 döndürdü.


Teşekkürler Shane, harika cevap! Alanımdaki "diğerleri" genellikle SPSS kullanıyor, bu yüzden Kolmogorov-Smirnov kullanıyorlar (normalliği kontrol ediyorlarsa), ancak bir örnekten veri toplandığında (parametreler olduğunda) IMHO Lilliefors testi daha iyi bir seçimdir Bilinmeyen). Bana Shapiro-Wilk'un küçük numuneler için uygun olduğu öğretildi ve sadece "küçük numuneler normallik testleri" hakkında daha fazla bilgi almak istedim ... BTW, R'de en kuzeyli kullanıyorum! =)
aL3xa

12

Normallik için, gerçek Shapiro-Wilk oldukça küçük numunelerde iyi bir güce sahiptir.

Gördüğüm çalışmalarda ana rakip, daha iyi olan daha genel Anderson-Darling, ancak daha iyi olduğunu söyleyemem. Hangi alternatiflerin ilginizi çektiğini netleştirebilirseniz, muhtemelen daha iyi bir istatistik daha açık olacaktır. [değiştir: parametreleri tahmin ederseniz, AD testi bunun için ayarlanmalıdır.]

[Küçük örneklerde (muhtemelen istatistiksel çevrelerde Bowman-Shenton olarak bilinen - küçük örnek dağılımını incelediler) Jarque-Bera'ı dikkate almamanızı şiddetle tavsiye ederim. Asimetrik eklem çarpıklığı ve basıklık dağılımı küçük örnek dağılımına benzemez - aynı şekilde bir muz da portakal gibi görünmez. Ayrıca bazı ilginç alternatiflere karşı çok düşük bir güce sahiptir - örneğin normal bir dağılıma yakın basıklık gösteren simetrik bir bimodal dağılımını almak için düşük güce sahiptir.]

Çoğu zaman insanlar, özellikle iyi olmayan nedenlerle ortaya çıkan uyum iyiliğini test ederler veya gerçekten cevaplamak istedikleri sorudan başka bir soruya cevap verirler.

Örneğin, neredeyse kesinlikle verilerinizin gerçekten normal olmadığını biliyorsunuz (tam olarak değil), bu yüzden cevabını bildiğiniz bir soruyu cevaplamaya çalışmanın bir anlamı yoktur - ve hipotez testi aslında buna cevap vermez .

Zaten kesin bir normalliğe sahip olmadığınızı bildiğinizde, normalite hipotez testiniz size "sahip olduğum normal olmayanlık miktarını alabilecek kadar büyük bir soruya" daha yakın bir soruya gerçekten cevap veriyor. cevaplamakla ilgilendiğiniz asıl soru genellikle " bu normal olmamanın ilgilendiğim diğer şeyler üzerindeki etkisi nedir?" sorusuna daha yakındır . Hipotez testi örneklem büyüklüğünü ölçerken, cevaplamak istediğiniz soru örneklem büyüklüğüne bağlı değildir.

Normallik testinin bir anlam ifade ettiği zamanlar vardır, ancak bu durumlar neredeyse hiç küçük örneklerle gerçekleşmez.

Neden normalliği test ediyorsunuz?


Harika bir cevap ve sonrasında harika bir soru için teşekkürler. Sorunun arka planı hakkında bir fikir edinmek çok önemlidir. Pek çok kez, t-testi, Pearson r veya ANOVA yapan insanların dağılım şekli hakkında herhangi bir fikir almadan (çoğu zaman ağır çarpık olan) - parametrik tekniklerin tatmin edici normallik varsayımına "ihtiyaç duyduğunu" gördüm. Psikolojide (bu benim ilgi alanımdır), genellikle küçük örneklerle ilgileniriz, bu nedenle uygun normallik testine ihtiyacım var.
aL3xa

5
Ancak normallik asla tatmin olmaz. Bazen verilerin makul bir açıklamasıdır, ancak bunlar aslında normal değildir. Varsaydığınızda normallik olup olmadığını kontrol etmek mantıklı olsa da, bunu test etmek özellikle yararlı değildir (yukarıda tarif ettiğim nedenlerden dolayı). Örneğin, bir qq-komplo yapıyorum, ancak bir hipotez testi bu durumda yanlış soruya cevap veriyor. t-testleri ve anova, dağılımlar aşırı derecede eğri değilse genellikle oldukça iyi çalışır. Daha iyi bir yaklaşım, normallik varsaymayan prosedürleri kullanmak olabilir - belki de yeniden örnekleme teknikleri.
Glen_b

Veya parametrik olmayan testleri, daha az güce sahip olacak şekilde kullanabilirsiniz. Ve istatistiklerde hiçbir şey kesinlikle tatmin olmuyor, sadece bir normallik sorunu değil. Ancak, bootstrapping veya jackknififing, birini t-testi ve / veya ANOVA varsayımlarına dahil ederken bir çözüm değildir. Yeniden örnekleme tekniklerinin normallik sorunlarını hiç çözdüğünden şüpheliyim. Normallik hem grafiksel olarak (yoğunluk grafiği, kutu grafiği, QQplot, histogram) ve "sayısal olarak" (normallik testleri, çarpıklık, basıklık, vb.) Kontrol edilmelidir. Sen ne önerirsin? Bu tamamen konu dışı, ancak ANOVA normallik varsayımlarını nasıl kontrol edersiniz?
aL3xa

@ aL3xa Araştırma alanınız göz önüne alındığında randomizasyon yaklaşımının daha uygun olduğunu düşünüyorum; olağan parametrik testlerin kesin permütasyon testlerine iyi bir yaklaşım sağladığı gerçeğine rağmen, parametrik olmayan testler de bir tür varsayım anlamına gelir (örneğin dağılımın şekli üzerine). Hatta küçük örneklem çalışmasında normallikten sapmanın ne olduğunu gerçekten nasıl tanımlayabileceğimizi merak ediyorum. Bence bu konu hakkında daha fazla tartışmayı ayrı bir soruda sormalısınız.
chl

10

Normallik testlerinde aşağıdakileri içeren bir Wikipedia kategorisi vardır :

Sanırım AD muhtemelen en iyisi.


1
Katılıyorum. AD testi, Jarque-Bera ve Spiegelhalter'in testi (1983) null altında, örnek büyüklüğü 8 ile 10.000 kez tekrarlanan hızlı bir test yaptım. AD testi nominal red oranını korur ve düzgün pval'lar verir, JB testi korkunçken Spiegelhalter orta halindedir.
shabbychef

1
@shabbychef Jarque-Bera testi , düşük 100'lerde n için bile iyi çalışmayan örnek çarpıklığı ve basıklık asimptotik normallerine dayanır . Ancak istenen reddetme oranını elde etmek için kritik değerleri, örneğin Thadewald, T ve H Buning, 2004, Jarque-Bera testi ve normallik testi için rakipleri Bölüm 4.1'de olduğu gibi simülasyon sonuçlarına göre ayarlayabilirsiniz - Bir güç karşılaştırması , Tartışma Kağıt Ekonomisi 2004/9, İşletme ve Ekonomi Okulu, Berlin Hür Üniversitesi.
Silverfish

3

Bütünlük için, ekonometristler aynı zamanda Ekonomi Mektupları'ndaki 1983 makalelerinden Kiefer ve Somon testini severler - daha sonra ki-kare dağıtılan 'normalleştirilmiş' çarpıklık ve basıklık ifadelerini toplar. Gradyan okulunda yazdığım eski bir C ++ sürümüm var.

Düzenleme: Ve işte son zamanlarda Jarque-Bera ve Kiefer-Salmon'u türeyen Bierens (re-) 'nin makalesi.

Edit 2: Eski koda baktım ve Jarque-Bera ile Kiefer-Salmon arasında gerçekten aynı test olduğu anlaşılıyor.


2

Aslında Kiefer Somon testi ve Jarque Bera testi birkaç yerde gösterildiği gibi kritik olarak farklıdır, ancak en son burada - Standart Hata Dağılımları için Moment Testleri: Yi-Ting Chen tarafından yapılan Basit Sağlam Bir Yaklaşım . Kiefer Salmon testi, standart Jarque Bera testinden farklı olarak ARCH tipi hata yapıları karşısında sağlamdır. Yi-Ting Chen'in makalesi, şu anda en iyi testler olacağını düşündüğüm şeyi geliştiriyor ve tartışıyor.


4
Chen, daha büyük veri setlerine odaklanıyor gibi görünüyor, çünkü bu testlerde yer alan dördüncü ve altıncı ve daha yüksek anlar, asimtotik seviyelere yerleşmek için biraz zaman alacak. Ancak dağılım testleri tipik olarak 250 değerden küçük veri kümeleri için kullanılır (bu makalede incelenen minimum değer). Aslında, çoğu daha büyük miktardaki verilerle o kadar güçlü hale gelir ki, bu tür uygulamalarda arka plana göre biraz daha fazladır. Yoksa burada gördüğümden daha fazlası mı var?
whuber

0

<30 denek örnek boyutları için , Shapiro-Wilk'ın güçlü bir güce sahip olduğu kabul edilir - Testin önem seviyesini ayarlarken, tip II hataya neden olabileceğinden dikkatli olun ! [1]


Küçük örneklerde uyum iyiliği testleri genellikle normallik özelliğini reddedemez.
Michael R.Chernick

@MichaelChernick özel durumda ne olur? Küçük bir varlığın normal olmayan "sınıflandırılması" nın nedeni nedir?
Aliakbar Ahmadi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.