ANOVA: grup başına çok az örnek içeren birçok grup için normallik varsayımının test edilmesi


12

Aşağıdaki durumu varsayalım:

küçük grup büyüklüğünde (örn. n = 3) çok sayıda (örn. 20) var. Tekdüze dağılımdan değerler üretirsem, hata dağılımı tekdüze olsa bile artıkların yaklaşık normal görüneceğini fark ettim. Aşağıdaki R kodu bu davranışı gösterir:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

Üçlü bir gruptaki bir numunenin kalıntısına bakarsam, davranışın nedeni açıktır:

r1=x1-anlamına gelmek(x1,x2,x3)=x1-x1+x2+x33=23x1-x2-x3.

resim açıklamasını buraya girin

Yana rastgele değişkenin bir toplamı değil kabaca farklı standart sapma ile dağıtım biraz daha yakın normal dağılıma tek açısından daha uzundur.r1

Simüle edilmiş veriler yerine gerçek verilerle aynı duruma sahip olduğumu varsayalım. Normalliğe ilişkin ANOVA varsayımlarının geçerli olup olmadığını değerlendirmek istiyorum. En çok önerilen prosedürler, artıkların görsel olarak incelenmesini (örn. QQ-Plot) veya kalıntılar üzerinde bir normallik testini önerir. Yukarıdaki örneğim olarak, bu küçük grup boyutları için gerçekten uygun değildir.

Küçük boyutlu birçok grubum olduğunda daha iyi bir alternatif var mı?


1
Birkaç nedenden dolayı bu sorun değil gibi görünüyor. İlk olarak, artıklarınız eşit görünecektir: Bunu görmek için çok sayıda grubun histogramına bakın. İkincisi, kalıntıların normallerinin çoğu analiz için çok az önemi vardır; önemli olan örnekleme dağılımlarının yaklaşık normalliğidir. Uygulamanızın hangi özel yönü, herhangi bir gerçek sorun olduğunu varsayalım?
whuber

1
a) Artıklarım tek tip görünmeyecek. Bunu 20 ila 20000 arasında bir grup (grup başına örnek değil) için test ettim. Soruya bir örnek ekledim; üniforma ile normal arasında, normalden farklı bir eğilim gibi bir şey gibi görünür. b) Bunun örnekleme dağılımının yaklaşık normallikiyle ilgili olduğunu biliyorum. Kalanlar normal görüneceği için sorunun tamamı budur, ancak örnekleme dağılımı değildir. Bu yüzden kalıntıları örnekleme dağılımının özelliklerini test etmek için kullanamıyorum.
Erik

2
Bu doğru. Ancak hataların dağılımı ile gerçekten ilgileniyor musunuz veya ANOVA yapmakla ilgileniyor musunuz? (Sorunun göz ardı edilmesi gerektiğini ima etmeye çalışmıyorum - bu ortaya çıkardığınız büyüleyici bir konudur - ancak sadece veri analizinize devam etmek için gerçekten bir cevaba ihtiyacınız olup olmadığını merak ediyorum.)
whuber

3
Ancak aynı simülasyonları, davanızdaki ANOVA'nın sağlamlığını araştırmak için kullanabilirsiniz!
kjetil b halvorsen

4
Biraz teğet ama ilgili bir yorum: Genel olarak, bir hipotez testi yapmadan önce normallik testi (veya başka bir model varsayımı) kullanmak (en azından) üç problem sunar: 1) Bunu yaparsanız, çoklu testi hesaba katmanız gerekir; 2) Alternatif hipotezi reddetmek, örneğin "normal değil", normalliği sonuçlandırabileceğiniz anlamına gelmez; 3) Model varsayımlarının testlerinin kendi model varsayımları vardır, bu yüzden nerede durursunuz?
Martha

Yanıtlar:


1

bir<bbir+b2σ(bir,b)σ<birσ>bSD<σn>100

Şimdi, ellerimizi hayal kırıklığına uğratmak yerine, normal şartlar altında SD'lerimiz için küçük sayı düzeltmesini uygulayabiliriz. (Ha! Sefaletimize bir çözüm var.)

SD(n)μ(n)=2n-1Γ(n2)Γ(n-12)=1-14n-732n2-19128n3+Ö(n-4)E[μ]

n=3Γ(32)=π2,8862269255σ

Şimdi sunmanız durumunda, devam eden başka şeyler de var. Olduğu gibi, tekdüze bir dağılımın konumunun en iyi ölçüsü ortalama değildir. Hem numune ortalaması hem de numune medyanı orta noktanın yansız tahmin edicileri olmakla birlikte, ikisi de numune orta aralığı kadar verimli değildir, yani minimum numune ve minimum minimumun aritmetik ortalaması olan minimum varyans tarafsız tahmincisi UMVU orta noktanın tahmincisi (ve aynı zamanda maksimum olabilirlik tahmini).

Şimdi maddenin etine. Uç değerlerin ortalamasını kullanırsanız, verilerinizin gerçekten eşit dağılmış olması koşuluyla, konum ölçüsünün sapması daha küçük olacaktır. Normalde dağıtılabilir, çünkü tek bir aşırı değer kuyruğu normal olabilir. Bununla birlikte, sadece 3 örnekle standart sapmanın düzeltilmesi gerekecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.