ANOVA varsayımları (varyans eşitliği, artıkların normalliği) neden önemlidir?


15

Bir ANOVA yürütürken, veriler için geçerli olması için testin belirli varsayımlarının mevcut olması gerektiği söylenir. Testin çalışması için aşağıdaki varsayımların neden gerekli olduğunu hiç anlamadım:

  1. Bağımlı değişkeninizin (artıkların) varyansı tasarımın her hücresinde eşit olmalıdır

  2. Bağımlı değişkeniniz (artıklar) tasarımın her bir hücresi için yaklaşık normal olarak dağıtılmalıdır

Bu varsayımların karşılanması gerekip gerekmediği konusunda biraz gri bir alan olduğunu anlıyorum, ancak tartışma uğruna, bu varsayımlar belirli bir veri kümesinde tamamen karşılanmadıysa, bir ANOVA kullanmakla ilgili sorun ne olurdu ?


çalışmanızın amacı nedir?
Subhash C.Davar

Yanıtlar:


8

Varsayımlar, null altındaki dağılım özellikleri bu varsayımlara dayanarak hesaplanan kullanabileceğiniz hipotez testlerinin (ve aralıklarının) özelliklerini etkilediği sürece önemlidir.

Özellikle, hipotez testleri için, önem verebileceğimiz şeyler, gerçek önem düzeyinin olmasını istediğimiz şeyden ne kadar olabileceği ve ilgili alternatiflere karşı gücün iyi olup olmadığıdır.

Hakkında sorduğunuz varsayımlarla ilgili olarak:

1. Varyans eşitliği

Bağımlı değişkeninizin (artıkların) varyansı tasarımın her hücresinde eşit olmalıdır

Bu, en azından numune boyutları eşit olmadığında önem düzeyini kesinlikle etkileyebilir.

ANOVA F-istatistiği iki varyans tahmininin oranıdır (varyansların bölümlenmesi ve karşılaştırılması buna varyans analizi olarak adlandırılır). Payda, sözde ortak-tüm hücrelere hata varyansının (kalıntılardan hesaplanan) bir tahminidir, grup araçlarındaki varyasyonu temel alan pay, biri popülasyon araçlarındaki ve diğerinden biri olmak üzere iki bileşene sahip olacaktır. hata sapması nedeniyle. Null doğruysa, tahmin edilen iki varyasyon aynı olacaktır (ortak hata varyansının iki tahmini); bu ortak ancak bilinmeyen değer iptal edilir (çünkü bir oran aldık), sadece hataların dağılımlarına bağlı olan bir F istatistiği bırakarak (varsayımlarımız altında gösterebileceğimiz bir F dağılımı vardır. (Benzer yorumlar t- test gösterim için kullandım.)

[Cevabımdaki bazı bilgiler hakkında biraz daha detay var ]

Bununla birlikte, burada iki popülasyon varyansı iki farklı boyutlu örnek arasında farklılık gösterir. Paydayı düşünün (ANOVA'daki F istatistiği ve bir t testindeki t istatistiğinin) - bir değil iki farklı varyans tahmininden oluşur, bu nedenle "doğru" dağılımına (ölçekli bir chi) sahip olmayacaktır. - F ve karekökü için kare - hem şekil hem de ölçek sorunlardır).

Sonuç olarak, F-istatistiği veya t-istatistiği artık F- veya t-dağılımına sahip olmayacaktır, ancak etkilenme şekli, büyük veya daha küçük örneğin, daha büyük varyans. Bu da p-değerlerinin dağılımını etkiler.

Null altında (yani popülasyon araçları eşit olduğunda), p-değerlerinin dağılımı eşit olarak dağıtılmalıdır. Ancak, varyanslar ve örnek boyutları eşit değilse ancak ortalamalar eşitse (bu nedenle null değerini reddetmek istemiyoruz), p değerleri eşit olarak dağılmaz. Size ne olduğunu göstermek için küçük bir simülasyon yaptım. Bu durumda, sadece 2 grup kullandım, bu yüzden ANOVA eşit varyans varsayımı ile iki örnekli bir t-testine eşdeğerdir. Bu yüzden, biri diğerinden on kat daha büyük, fakat eşit ortalamalar olmak üzere iki standart dağılımdan örnekler simüle ettim.

Sol taraftaki grafik için daha büyük ( popülasyon ) standart sapma n = 5 ve daha küçük standart sapma n = 30 idi. Sağ taraftaki grafik için daha büyük standart sapma n = 30 ve daha küçük olan n = 5 ile gitti. Her birini 10000 kez simüle ettim ve her seferinde p değerini buldum. Her durumda histogramın tamamen düz (dikdörtgen) olmasını istersiniz, çünkü bu, bazı önem düzeyinde ile yapılan tüm testlerin aslında bu tip I hata oranını elde ettiği anlamına gelir . Özellikle histogramın en sol kısımlarının gri çizgiye yakın olması çok önemlidir:α

Simüle edilmiş numuneler için p-değerleri histogramları

Gördüğümüz gibi, sol taraftaki çizim (daha küçük örnekte daha büyük varyans) p değerleri çok küçük olma eğilimindedir - null doğru olsa bile null hipotezini çok sık reddederiz (bu örnekte zamanın neredeyse yarısı). . Yani önem seviyelerimiz istediğimizden çok daha büyük. Sağ taraftaki grafikte p değerlerinin çoğunlukla büyük olduğunu görüyoruz (ve bu nedenle önem seviyemiz istediğimizden çok daha küçük) - aslında on bin simülasyonda bir kez% 5 seviyesinde (en küçük Buradaki p değeri 0.055 idi). [Bu çok kötü bir şey gibi gelmeyebilir, biz de çok düşük önem seviyemize gitmek için çok düşük bir güce sahip olacağımızı hatırlayana kadar .]

Bu oldukça önemli bir sonuçtur. Bu nedenle, varyansların eşit olacağını varsaymak için iyi bir nedenimiz olmadığında Welch-Satterthwaite tipi t-testi veya ANOVA kullanmak iyi bir fikirdir - bu durumda bu durumdan çok az etkilenir (I bu durumu simüle etti; simüle edilmiş p-değerlerinin iki dağılımı - burada göstermediğim - daireye oldukça yakın çıktı).

2. Yanıtın koşullu dağılımı (DV)

Bağımlı değişkeniniz (artıklar) tasarımın her bir hücresi için yaklaşık normal olarak dağıtılmalıdır

Bu biraz daha az doğrudan kritiktir - normallikten orta derecede sapmalar için, önem seviyesi daha büyük örneklerde çok fazla etkilenmez (güç olabilir!).

nn

H0 doğru olduğunda, ancak her gruptaki dağılımlar üstel olduğunda p-değerlerinin histogramları

N = 5'te önemli ölçüde çok az küçük p değeri olduğunu görüyoruz (% 5 testi için önem seviyesi olması gerekenin yaklaşık yarısı olacaktır), ancak n = 50'de problem azalır -% 5 için Bu durumda test gerçek önem seviyesi yaklaşık% 4.5'tir.

Bu yüzden, "eğer önem seviyesi oldukça yakın olacak kadar büyükse" iyi, bu iyi "demeye cazip gelebiliriz, ama aynı zamanda iyi bir güç dağıtımı da yapıyor olabiliriz. Özellikle, t-testinin yaygın olarak kullanılan alternatiflere göre asimptotik nispi verimliliğinin 0'a gidebileceği bilinmektedir. Bu, daha iyi test seçeneklerinin, bunu elde etmek için gereken örnek boyutunun kaybolan küçük bir kısmı ile aynı gücü elde edebileceği anlamına gelir. t testi. Nüfus dağılımında normal bir kuyruktan - orta derecede daha ağır - alternatif bir testle ihtiyaç duyacağınız t ile aynı güce sahip olmak için iki kat daha fazla veriye ihtiyaç duymak için olağan dışı bir şeye ihtiyacınız yok. ve orta derecede büyük örnekler bunu yapmak için yeterli olabilir.

(Diğer dağıtım seçenekleri, önem düzeyini olması gerekenden daha yüksek veya burada gördüğümüzden önemli ölçüde daha düşük yapabilir.)


Ayrıntılı yanıt için teşekkürler Glen. Varsayımların yerine getirilmemesi durumunda açıkladığınız hataların neden ortaya çıkacağını merak ediyorum. Varyans eşitliği açısından, aşağıdakileri yazarken doğru muyum? daha büyük varyans (ve genel olarak küçük olan veri noktalarının sayısının yanı sıra n = 5), daha küçük numunede gözlemlenen daha büyük varyansın, popülasyon düzeyindeki varyansı temsil ettiği hesaplanmasıdır.
PaperRockBazooka

(Kısım 2) Esasen temsili bir numune ile temsili olmayan bir numune (nispeten konuşursak) arasında ANOVA'nın işlenme şekli nedeniyle tip 1 hatasına yol açabilecek haksız bir karşılaştırma.
PaperRockBazooka

@Kağıt Burada sorun olduğunu sanmıyorum. Daha küçük numunedeki örnek varyansının temsili değildir (örn. Her iki örnek de eşit derecede küçük olsaydı, temsiliyetle ilgili iki kat probleminiz olurdu, ancak bu sorun olmazdı). Sorunun nasıl daha ayrıntılı olarak ortaya çıktığını açıklamak için cevabıma birkaç paragraf ekledim.
Glen_b -Monica

4

Özetle, ANOVA kalıntıları ekler , kareler ve ortalar . Artıklar, modelinizin verilere ne kadar iyi uyduğunu söyler. Bu örnekte, veri kümesini şu alanlarda kullandım :PlantGrowthR

Bir kontrol ve iki farklı muamele koşulu altında elde edilen verimleri (bitkilerin kurutulmuş ağırlıklarıyla ölçüldüğü gibi) karşılaştırmak için bir deneyden elde edilen sonuçlar.

Bu ilk grafik size üç tedavi seviyesinin de genel ortalamasını göstermektedir:

resim açıklamasını buraya girin

Kırmızı çizgiler artıklardır . Şimdi, bu bireysel çizgilerin uzunluğunu karelerek ve ekleyerek, ortalamanın (modelimiz) verileri ne kadar iyi tanımladığını söyleyen bir değer elde edeceksiniz. Küçük bir sayı, ortalamanın veri noktalarınızı iyi açıkladığını, daha büyük bir sayı ortalamanın verilerinizi çok iyi tanımlayacağını söyler. Bu sayıya Toplam Kareler Toplamı denir :

SStotal=(xix¯grand)2xix¯grand

Şimdi (muamelende artıklar için aynı şeyi yapmak Kareler Kalıntı Tutarlarla olarak da bilinir, gürültü tedavi seviyelerinde):

resim açıklamasını buraya girin

Ve formül:

SSresiduals=(xikx¯k)2xikikx¯k

Son olarak, daha sonra tedavi araçlarının büyük ortalamadan farklı olup olmadığını hesaplamak için kullanılacak olan verilerdeki Karelerin Model Toplamları olarak bilinen sinyali belirlememiz gerekir :

resim açıklamasını buraya girin

Ve formül:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

Şimdi karelerin toplamıyla ilgili dezavantaj, örneklem büyüklüğü arttıkça daha büyük olmalarıdır. Veri kümesindeki gözlem sayısına göre bu kareler toplamını ifade etmek için, bunları varyanslara dönüştüren serbestlik derecelerine böldünüz. Dolayısıyla , veri noktalarınızı kareledikten ve ekledikten sonra , şimdi bunların serbestlik derecelerini kullanarak ortalamasını alıyorsunuz :

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

Bu, Model Ortalama Kare ve Artık Ortalama Kare (her ikisi de varyanslardır) veya F değeri olarak bilinen sinyal / gürültü oranıyla sonuçlanır:

MSmodel=SSmodeldfmodel

MSresidual=SSresidualdfresidual

F=MSmodelMSresidual

F değeri, sinyal / gürültü oranını veya tedavi aracının genel ortalamadan farklı olup olmadığını açıklar. F-değeri şimdi p-değerlerini hesaplamak için kullanılmaktadır ve bunlar tedavi araçlarından en az birinin büyük ortalamadan önemli ölçüde farklı olup olmayacağına karar verecektir.

Şimdi umarım varsayımların artıklarla yapılan hesaplamalara ve bunların neden önemli olduğuna dayandığını görebilirsiniz. Kalıntıları eklediğimiz , kareleri aldığımız ve ortaladığımız için , bunu yapmadan önce, bu tedavi gruplarındaki verilerin benzer davrandığından emin olmalıyız, aksi takdirde F-değerinin bir dereceye kadar önyargılı olabileceğini ve bu F-değerinden çizilen çıkarımların geçerli değil.

Düzenleme: OP'nin 2. ve 1. sorularına daha spesifik olarak değinmek için iki paragraf ekledim .

Normallik varsayımı : Ortalama (veya beklenen değer) istatistiklerde bir dağılımın merkezini tanımlamak için sıklıkla kullanılır, ancak çok sağlam değildir ve aykırı değerlerden kolayca etkilenmez. Ortalama, verilere sığabileceğimiz en basit modeldir. ANOVA'da, artıkları ve karelerin toplamlarını hesaplamak için ortalamayı kullandığımızdan (yukarıdaki formüllere bakın), veriler kabaca normal olarak dağıtılmalıdır (normallik varsayımı). Eğer durum böyle değilse, ortalama, örnek dağılım merkezinin doğru bir yerini vermeyeceğinden veriler için uygun model olmayabilir. Bunun yerine, örneğin medyanı bir kez kullanabilirsiniz (parametrik olmayan test prosedürlerine bakınız).

Varyans homojenliği varsayımı : Daha sonra ortalama kareleri (model ve artık) hesapladığımızda, tedavi seviyelerinden bireysel karelerin toplamlarını bir araya getiriyoruz ve bunların ortalamasını alıyoruz (yukarıdaki formüllere bakın). Havuzlama ve ortalamayı alarak, münferit tedavi seviyesi varyanslarının bilgilerini ve bunların ortalama karelere katkısını kaybediyoruz. Bu nedenle, ortalama karelere olan katkının benzer olması için tüm tedavi seviyeleri arasında kabaca aynı varyansa sahip olmalıyız. Bu tedavi seviyeleri arasındaki varyanslar farklı olsaydı, sonuçta ortaya çıkan ortalama kareler ve F değeri önyargılı olur ve bu p değerlerinden çizilen çıkarımların sorgulanabilir olmasını sağlayan p-değerlerinin hesaplanmasını etkiler (ayrıca @whuber'ın yorumuna ve @Glen_b 'nin cevabı).

Kendim için böyle görüyorum. % 100 doğru olmayabilir (ben istatistikçi değilim) ama ANOVA için varsayımları yerine getirmenin neden önemli olduğunu anlamama yardımcı oluyor.


FFFFF

FF

Teşekkürler Stefan. Seni doğru anlayıp anlamadığımı görmek istiyorum. ANOVA temel olarak setin tüm veri noktalarından büyük bir ortalama yaratır ve her grubun aralarında istatistiksel olarak anlamlı bir fark olup olmadığını anlamak için bu büyük ortalamadan ne kadar farklı olduğunu karşılaştırır. Tartışılan varsayımlar karşılanmazsa, büyük ortalama, karşılaştırılan gruplara çok yansıtıcı değildir ve karşılaştırma zorluğuna yol açar
PaperRockBazooka

SStotalSSresidualSSmodel) sinyal / gürültü oranını belirlemek için kullanılır. Elle basit bir Tek Yönlü ANOVA hesaplamaya çalışın. Bu daha iyi anlamama yardımcı oldu.
Stefan

0

ANOVA sadece bir yöntem, numunelerinizden F-testini hesaplıyor ve F-dağılımıyla karşılaştırıyor. Neyi karşılaştırmak istediğinize karar vermek ve p değerlerini hesaplamak için bazı varsayımlara ihtiyacınız vardır.

Eğer bu varsayımları yerine getirmezseniz, başka şeyleri de hesaplayabilirsiniz ama bu bir ANOVA olmayacaktır.

En kullanışlı dağıtım normaldir (CLT nedeniyle), bu yüzden en yaygın kullanılanıdır. Verileriniz normal olarak dağıtılmamışsa, en azından bir şeyi hesaplamak için dağılımının ne olduğunu bilmeniz gerekir.

Homossedastisite, regresyon analizinde de yaygın bir varsayımdır, sadece işleri kolaylaştırır. Başlamak için bazı varsayımlara ihtiyacımız var.

Eşcinsellik konusunda bir bilginiz yoksa, bunu elde etmek için verilerinizi dönüştürmeyi deneyebilirsiniz.

ANOVA F-testinin, sabit bir yanlış pozitif hata oranı için yanlış negatif hataları en aza indirgemek açısından neredeyse optimal olduğu bilinmektedir.


"ANOVA", karelerin toplamlarının yorumlanabilir bileşenlere ayrışması sürecini ifade eder. Dağılım varsayımlarından bağımsız olarak, bir ANOVA bir ANOVA'dır.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.