ANOVA hangi soruyu cevaplıyor?


10

ANOVA öğrenmek istiyorum. Algoritmanın nasıl çalıştığını (hangi hesaplamaların yapılması gerektiğini) ve neden işe yaradığını öğrenmeye başlamadan önce, öncelikle ANOVA ile hangi sorunu gerçekten çözdüğümüzü veya hangi cevabı cevaplamaya çalışacağımızı bilmek istiyorum. Başka bir deyişle: Girdi nedir ve algoritmanın çıktısı nedir?

Girdi olarak ne kullandığımızı anlıyorum. Bir dizi rakamımız var. Her sayı, bir veya daha fazla kategorik değişkenin ("faktörler" olarak da bilinir) değerleriyle birlikte gelir. Örneğin:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

ANOVA'nın faktörlerin değerlerin ortalaması üzerinde hiçbir etkisi olmadığını belirten sıfır hipotezinin p değerini hesapladığını söylemek doğru mu? Başka bir deyişle, yukarıda verilen verileri algoritmaya veriyoruz ve sonuç olarak sıfır hipotezinin p-değerini alıyoruz?

Durum buysa, p değerini hesaplamak için gerçekte hangi önlemi kullanırız? Örneğin, sıfır hipotezi M göz önüne alındığında, vakaların% 1'inde, tesadüfen (hatta daha da yüksek) şans kadar yüksek olabilir diyebiliriz. M nedir?

ANOVA'daki faktörleri ayrıca araştırmıyor muyuz? ANOVA, faktör_1'nin bir etkisi olduğunu ancak faktör_2'nin olmadığını söyleyebilir mi? ANOVA, "A", "B" ve "C" değerine karşılık gelen belirli bir faktör değeri için istatistiksel olarak ayırt edilemez (örneğin aynı ortama sahip) ancak "D" değerinin bir etkisi olduğunu söyleyebilir mi?

Yanıtlar:


6

ANOVA "Varyans Analizi" anlamına gelmektedir. Şaşırtıcı olmayan bir şekilde, varyansı analiz eder.

Biraz daha açık olalım. Gözlemleriniz biraz farklılık gösterecektir. Gözlemlerinizi faktör 1'e göre gruplandırırsanız , faktör 1 tarafından tanımlanan gruplar içindeki varyans genel varyanstan daha küçük olacaktır. Faktör 1 "varyansı açıklar".

Ancak, bu faktör 1'in aslında gözlemlerinizle bir ilişkisi olduğu sonucuna varmak için yeterli değildir ... çünkü herhangi bir şeye göre gruplama varyansı "açıklayacaktır". İyi olan şey, faktörünüzün aslında gözlemlerinizle hiçbir ilgisi olmadığı sıfır hipotezi altında ne kadar varyansın açıklanacağını bilmemizdir. Boş olarak açıklanan bu varyans miktarı bir dağılımı ile açıklanmaktadır .F

Bu nedenle, ANOVA'daki strateji toplam varyansı ve grup içi varyansı (karelerin toplamlarını kullanarak) tahmin etmek ve bu tahmini varyansların oranlarını almaktır. Bu oran istatistiğidir. Daha sonra bu istatistiğini tek taraflı bir testte dağılımının kritik değeri ile karşılaştırırız ve değerinizi veririz . Faktör seviyesi sayısı dağılımının bir parametresine girer (daha fazla faktör seviyesi sıfır hipotezi altında daha fazla varyansı açıklar) ve gözlem sayısı ve seviye sayısı diğerine gider. Bu önceki soru yardımcı olabilir.FFFpF

(Neden tek taraflı bir test? Çünkü, yukarıdaki gibi, herhangi bir gruplama bazı varyansları açıklayacaktır, bu nedenle faktörünüzün önemli miktarda büyük bir varyansı açıklayıp açıklamadığını kontrol etmek mantıklıdır .)

Vikipedi girdisinin "Güdüleyici Örneği" bölümü çok az açıklamak faktörlerin bazıları çok güzel şekiller içermektedir, genel varyansın bazıları ve çok.

Örneğinizde olduğu gibi ANCOVA'nın yanı sıra iki yönlü ANOVA ve etkileşimler bu temadaki genellemelerdir. Her durumda, bazı açıklayıcı değişken eklemenin önemli ölçüde büyük bir varyansı açıklayıp açıklamadığını araştırıyoruz.

Önemli bir genel testine sahip olduktan sonra , post-hoc testlerde belirli faktör seviyelerinin gözlemlerinin diğerlerinden önemli ölçüde farklı olup olmadığını inceleyebiliriz . Örneğin D, A, B ve C'den farklı olabilir, ancak bunlar birbirinden önemli ölçüde farklı olmayabilir. Bunun için genellikle testi kullanırsınız . Bu daha önceki soru kullanışlı, hem de olabilir bu bir .Ft


Bu nedenle, tüm sayıyı toplam varyansını hesaplamak için kullanıyoruz , sonra her grubu için varyansları ve son olarak "bu ölçüyü" elde etmek için tüm bu varyansları (muhtemelen grup boyutlarıyla da) birleştiriyoruz: . Sonra, sıfır hipotezinin doğru olduğu varsayımı altında M'nin olduğu kadar büyük veya daha da büyük olma olasılığını hesaplıyoruz. VviM=M(V,v1,v2,...,vk,n1,n2,...,nk)
Roman

Kesinlikle. sizin istatistiğiniz. İşte gerçek formül. MF
Stephan Kolassa

Dürüst olmak gerekirse, hala biraz kafam karıştı. ANOVA sana göre, sıfır hipotezinin p değerini döndürür. Ancak diğer taraftan, Wikipedia'dan "Motive Edici Örnek" ten ANOVA'nın bize verileri en iyi "açıklayan" en iyi faktörü (veya faktörlerin bir kombinasyonunu) verdiği sonucuna varılabilir. Yani, örnekte ANOVA, cinsin köpeklerin ağırlığını açıklamak için en iyi faktör olduğunu söylüyor.
Roman

1
"En iyi" yüklendi. Bu adım adım-model-seçim-p-değerlerine dayalı bölge içine girer ve bu sorunludur. Motive edici örneği çok fazla okumayın. Bununla ilgili en iyi şey, açıklanan varyansın tasviridir (sıfır, biraz, çok). Aşağı inmek ve istatistiğinin karelerin toplamına göre nasıl hesaplandığını okumak ve bu karelerin toplamının sadece varyans tahmincisi olduğunu hatırlamak daha iyidir. F
Stephan Kolassa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.