ANOVA varsayım normalliği / artıkların normal dağılımı


52

ANOVA Wikipedia sayfasında üç varsayımları listeler yani:

  • Durumların bağımsızlığı - bu, istatistiksel analizi basitleştiren modelin bir varsayımıdır.
  • Normallik - artıkların dağılımları normaldir.
  • Eşcinsellik (veya "homojenlik"), eşcinsellik denir ...

Burada ilgilenilen nokta ikinci varsayımdır. Birkaç kaynak, varsayımı farklı şekilde listeler. Bazıları ham verilerin normalliğini, bazılarının artıklarının olduğunu söylüyor

Birkaç soru açılır:

  • normalliğin ve normal kalıntıların normal dağılımının aynı kişi olduğu (Wikipedia'ya göre, normalliğin bir özellik olduğunu iddia edebileceğimi iddia ediyorum ve artıkları doğrudan ilgilendirmez (ancak artıkların mülkü olabilir (parantez içinde derinlemesine iç içe metin, garip)))?
  • değilse, hangi varsayımı tutmalı? Bir? Her ikisi de?
  • normal dağılıma sahip artıkların varsayımı doğru ise, normalliğin sadece ham değer histogramını kontrol ederek ciddi bir hata mı yapıyoruz?

Ham verinin normalde dağıtılması gerektiğini söylerlerse söyleyen bu kaynakları başka hiçbir şeyi görmezden gelebilirsiniz. Ve kim “biz” dedi ki, ham değerleri sadece histogramlarla kontrol ediyorduk. Bu Altı Sigma sınıflarından birinde misiniz ???
DWI

1
@Andy W: Az önce ANOVA'daki Wikipedia makalesinin ilgili bölümü olarak görünen bir bağlantı ekledim.
58’de

@DWin: blog.markanthonylawson.com/?p=296 (özür dilerim, tamamen konu dışı ama karşı koyamadık)
saat

@onestop teşekkür ederim. Ben sadece bağlantıyı istedim çünkü tembelim ve kendim wikipedia'da ANOVA'yı aramak istemedim, çünkü soru için gerekli değil.
Andy

Yanıtlar:


35

Bunun bir sabit etki modeli olduğunu varsayalım . (Rastgele efektli modeller için tavsiye gerçekten değişmez, sadece biraz daha karmaşık hale gelir.)

  1. Hayır, normallik ve artıkların normal dağılışı aynı değildir . Bir gübre uygulaması olan ve olmayan bir mahsulün verimini ölçtüğünüzü varsayalım. Gübresiz tarlalarda verim 70 ila 130 arasında değişmektedir. Gübre içeren iki arsada verim 470 ila 530 arasında değişmektedir. Sonuçların dağılımı normal değildir. Ayrıca ortalama verimlerin sırasıyla 100 ve 500 olduğunu varsayalım. Sonra tüm artıklar -30 ila +30 arasındadır. Normal olarak dağıtılabilirler (ya da olmayabilirler), ama açıkçası bu tamamen farklı bir dağıtım.

  2. Artıkların dağılımı önemlidir , çünkü bunlar modelin rastgele bölümünü yansıtır. Ayrıca, p değerlerinin F (veya t) istatistiklerinden hesaplandığını ve bunun orijinal değerlere değil artıklara bağlı olduğunu unutmayın.

  3. Verilerde önemli ve önemli etkiler varsa (bu örnekte olduğu gibi), o zaman "ciddi" bir hata yapıyor olabilirsiniz . Şans eseri, doğru kararları verebilirsiniz: yani, ham verilere bakarak bir dağıtım karışımı göreceksiniz ve bu normal görünebilir (veya görünmeyebilir). Mesele şu ki, aradığın şeyle alakalı değil.

ANOVA artıklarının modele uyması için normale yakın herhangi bir yerde olması gerekmez. Bununla birlikte, artıkların normale yakınlığı , F dağılımından hesaplanan p değerlerinin anlamlı olması için esastır .


6
Eklenecek önemli noktalar olduğunu düşünüyorum: ANOVA'da, her bir grup içindeki normallik (genel değil) artıkların normalliklerine eşittir.
Aniko,

2
@Aniko Lütfen yorumunuzda "eşdeğer" ile ne demek istediğinizi açıklayabilir misiniz? Bir grup içindeki normalliğin, o grubun artıklarının normalliği ile aynı olması neredeyse imkansızdır, ancak her grup içindeki normalliğin ayrı olarak artıkların normalliğini ima ettiği (veya ima edildiği) yanlıştır.
whuber

7
Gerçekten tautological anlamda demek istedim: eğer gruplar normalse, artıklar normaldir. Tersi sadece eşcinsellik eklenirse geçerlidir (ANOVA'daki gibi). Artıklar yerine grupları kontrol etmeyi savunmak istemem, ama bunun varsayımların değişen ifadelerinin altında yatan sebep olduğunu düşünüyorum.
Aniko

2
ANOVA yapan insanların genellikle p-değerlerini hesaplamakla ilgilendiklerini ve bu nedenle artıkların normalliğinin onlar için önemli olduğunu fark ettim. F dağılımından p değerleri hesaplamakla ilgilenmiyorsak ANOVA modeline uymamız için genel nedenler var mı? Bu soru bir yorum için çok genişse özür dilerim.
user1205901 - Monica'yı

3
@ user1205901 Bu çok iyi bir nokta. ANOVA'nın F testine dayanmayan iki yaygın kullanımı (1) etki tahminlerini elde etmenin uygun bir yoludur ve (2) varyans hesaplama bileşenlerinin bir parçası ve parseldir.
whuber

8

Standart Klasik tek yönlü ANOVA, klasik "2 örnek T testine" bir "n örnek T testine" bir uzantı olarak görülebilir. Bu, tek yönlü bir ANOVA'yı sadece iki grupla klasik 2 örneklem T-testi ile karşılaştırmakla görülebilir.

Kafanızın karıştığı yerin (modelin varsayımlarına göre) artıkların ve ham verilerin normal olarak dağıtılmış olduğu. Bununla birlikte, ham veriler farklı araçlarla normal dağılımlardan oluşur (tüm etkiler tamamen aynı olmadığı sürece) ancak aynı değişkendir. Öte yandan artıklar aynı normal dağılıma sahiptir . Bu, üçüncü eşcinsellik varsayımından gelir.

Bunun nedeni normal dağılımın ortalama ve varyans bileşenlerine ayrışmasıdır. Eğer ortalama ve varyansı ile normal bir dağılıma , olarak yazılabilir, burada standart bir normal dağılıma sahiptir. μ j σ 2 Y i j = μ j + σ ϵ i j ϵ i jYijμjσ2Yij=μj+σϵijϵij

ANOVA normallik varsayımından türetilebilir olsa da, bence (ancak emin değilim) , "EN İYİ" nin minimum ortalama kare olarak yorumlandığı bir doğrusallık varsayımı ( En İyi Doğrusal Satılmamış Tahmin Edici (MAVİ) boyunca tahmin çizgileri varsayımı ile değiştirilebileceğini düşünüyorum. hata). Bu temelde için dağıtım yerine içerir inanıyoruz ile bir (baştan karşılıklı bağımsız dağıtım i ve j ) sahip olan 0 ve varyans 1 anlamına gelir.ϵij

Ham verilerinize bakarken, modelinizdeki her faktör seviyesi için ayrı ayrı çizildiğinde normal görünmelidir . Bu , her j için i ayrı bir grafikte çizmek anlamına gelir .Yij


1
(Son paragrafta) homoscedastisite varsayımına işaret etmek için +1.
whuber

Bu, n'ye göre bağımlı grupları karşılaştırmak için izin vermemize izin vermemiz durumunda , artıklarını ayrı ayrı kontrol etmemiz gerektiği anlamına gelir ( n artık kalıntılarla sonuçlanır )?
Stan

5

Tek yönlü durumunda boyutu gruplar : buradapnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2 ve

SSw=j=1pi=1nj(yijMj)2

F bir aşağıdaki -Dağıtım halinde ve bağımsızdır değişkenleri -Dağıtık ve dereceleri sırasıyla, özgürlük. ve , ortalama ve eşit skala ile kare bağımsız normal değişkenlerin toplamı olduğunda bu durum . Bu nedenle ve normal olarak dağıtılmalıdır.FSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

Y = μ j + ϵ = μ + α j + ϵ y i ( j ) - M Y = μ + ϵ M - M jyi(j)Mj , tam modelden kalan ( ), , sınırlı modelden kalan kalıntıdır ( ). Bu artıkların farkı .Y=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

DÜZENLEME @onestop ile açıklama yansıtmak için altında , tüm gerçek bir grup anlamına gelir eşit (ve böylece eşit arasında), ve böylece normalite grubu düzeyinde artıkları normalliğini ima de. DV değerlerinin kendilerinin normal dağılmasına gerek yoktur. M y i ( j ) - M j M - M jH0Myi(j)MjMMj


2
Varsayım bu olmasıdır vardır -Dağıtık boş hipotezinde grup araçlarının tüm eşit olmasıdır, örneğin, tüm . Bu durumda, normaldir, normaldir. Bu nedenle yalnızca ilkini kontrol etmeniz gerekir, yani gözlem seviyesi artıkları normaldir. χ 2 M j = M j y i j - M j M j - MSSχ2Mj=MjyijMjMjM
51’de

@onestop Açıklamanızı yansıtmak için düzenlendi, teşekkürler!
caracal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.