Faktöriyel ANOVA'daki hata terimini nasıl gerekçelendirebilirim?


13

Çok faktörlü ANOVA hakkında muhtemelen çok temel bir soru. Hem A, B hem de A: B etkileşimini test ettiğimiz iki yönlü bir tasarım varsayalım. Tip I SS ile A için ana efekti test ederken, SS etkisi farkı olarak hesaplanır , burada sadece kesişmeli model için kalan hata toplamıdır, ve A faktörü eklenen model için RSS. Sorum, hata terimi seçimi ile ilgili:R S S ( 1 ) R S S ( A )RSS(1)RSS(A)RSS(1)RSS(A)

Bu test için hata teriminin tipik olarak hem ana etkileri hem de etkileşimi içeren tam A + B + A: B modelinin RSS'sinden hesaplandığını nasıl gerekçelendiriyorsunuz?

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B

... hata terimini sınırsız modelden gerçek karşılaştırmadan almak yerine (yukarıdaki durumda sadece ana etki A'dan RSS):

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

Tam modele ait hata terimi muhtemelen karşılaştırmada kısıtlanmamış modelden kaynaklanan hata teriminden genellikle (her zaman değil) daha küçük olduğu için bu bir fark yaratır. Hata terimi için seçim biraz keyfi gibi görünüyor, sadece gerçekten ilgi çekici olmayan faktörleri ekleyerek / kaldırarak istenen p değeri değişikliklerine yer açıyor, ancak yine de hata terimini değiştiriyor.

Aşağıdaki örnekte, SS etkisi için gerçek karşılaştırma aynı kalsa da, A için F değeri tam model seçimine bağlı olarak önemli ölçüde değişir.

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

Aynı soru tip II SS için ve genel olarak genel bir doğrusal hipotez için, yani tam model içindeki kısıtlı ve kısıtlanmamış bir model arasındaki bir model karşılaştırması için de geçerlidir. (Tip III SS için, sınırsız model her zaman tam modeldir, bu yüzden soru orada ortaya çıkmaz)


Sorunuzla kafam karışabilir, ancak Tip 1 SS ile etkisini test etmek için payda , ikinci ifadenizde bulunan paydadır. Çalışmadan elde edilen çıktıdaki F değeri ikinci ifadeniz aracılığıyla hesaplanır. Yani, koştuğunuz ve karşılık gelen değerleri ikinci ifadenize , elde edersiniz . Endişenizi tamamen özlüyorum, bana bildirin. F = 0.9342Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

@MikeWierzbicki Tam model yalnızca IV1(1. örnek) içeriyorsa , payda için iki ifadenin aynı olduğu konusunda haklısınız . Bununla birlikte, tam model ek efektler içerdiğinde , model karşılaştırması ( tip 1 SS için vs. ) olmamasına rağmen testinin paydası değişir . 3 örnekte, için ortalama kare değişmez (her durumda aynı model karşılaştırması), ancak ortalama kare hatası değişir. Gerçek karşılaştırma aynı kaldığında değişen hata terimini haklı çıkarıyor. AA~ 1~ IV1 + 1A
caracal

Hey @caracal, böyle eski bir cevabın aniden kabul edildiğini görmek güzel! :-) Şerefe.
amip diyor ki Reinstate Monica

Yanıtlar:


4

Bu çok eski bir soru ve @ gung'un cevabının çok iyi olduğuna inanıyorum (+1). Ancak @caracal için tamamen ikna edici olmadığından ve tüm karmaşıklıklarını tam olarak takip etmediğim için, sorunu nasıl anladığımı gösteren basit bir figür sağlamak istiyorum.


İki yönlü bir ANOVA'yı düşünün (faktör A'nın üç seviyesi vardır, faktör B'nin iki seviyesi vardır) ve her iki faktör de açıkça çok önemlidir:

Faktöriyel ANOVA toplamları kareler

Faktör A için SS çok büyük. Faktör B için SS çok daha küçüktür, ancak üst rakamdan, faktör B'nin yine de çok önemli olduğu açıktır.

Her iki faktörü içeren model için hata SS altı Gaussiandan biri ile temsil edilir ve faktör B için SS'yi bu hata SS ile karşılaştırırken, test faktör B'nin önemli olduğu sonucuna varacaktır.

Bununla birlikte, sadece B faktörünü içeren model için SS hatası büyüktür! Faktör B için SS'yi bu büyük hata ile karşılaştırmak SS kesinlikle B'nin anlamlı görünmemesine neden olacaktır. Bu kesinlikle doğru değil.

Bu nedenle, tam modelden hata SS'yi kullanmak mantıklıdır.


2

Güncelleme: Buraya geçerken bahsettiğim bazı noktaları açıklığa kavuşturmak için, ilgili fikirleri daha ayrıntılı olarak tartıştığım yerlere bazı bağlantılar ekledim.


F testi, bir faktörle ilişkili olarak şans eseri beklenenden daha fazla değişkenlik (özellikle ortalama kareler) olup olmadığını kontrol eder. Şans eseri ne kadar varyasyon bekleyebileceğimiz, kare hataların toplamından, yani bilinen bir faktörün (bununla ilişkili) ne kadar değişkenlikten kaynaklandığı tahmin edilmektedir. Bunlar sizin bildiğiniz her şeyi açıkladıktan sonra geride kalan artıklarınızdır. , yalnızca kalan hatadan daha fazlasını içerir, aynı zamanda bilinen faktörler nedeniyle değişkenlik de içerir. tesadüfen bir dereceye kadar sıçramak için teorileşmiş olsa da , bu miktar bilinen diğer faktörler 1 tarafından yönlendirilmek üzere teorize edilmemiştir . Bu nedenle, kullanmak uygun olmaz S S A M S A M S A + B + A BRSSASSAMSAF testinizde payda olarak. Dahası, size daha fazla güç verir, tip II hata olasılığını azaltır ve tip I hatasını . MSA+B+AB

Sorunuzda başka sorunlar da var. Sen söz her zaman en düşük değildir ve sizin örnekte, . Bunun nedeni, etkileşimin aslında kendisinin herhangi bir değişkenliği ile ilişkili olmamasıdır. Yani görünür nedeniyle daha şans daha hiçbir şey olmak. Farklı faktörler modele dahil edilir veya modelden çıkarılırsa gücün nasıl değişeceğini belirten kesin, ancak biraz karmaşık bir formül vardır. Parmaklarımın ucunda değil, ama özü basit: Başka bir faktör , RSS azalır (size daha fazla güç verir), ancak M S A + B + A B > M S A + B S S A B = 14,19 d f RRSSfullMSA+B+AB>MSA+BSSAB=14.19dfRaşağı iner (daha az güç verir). Bu değişimin dengesi, temel olarak bu faktörü ile bağlantılı durum = uygulamada sadece gevşek faktörü anlamlı olup olmadığı ile belirtilir ya şans nedeniyle, gerçek olup olmadığı belirlenir 2 . Bununla birlikte, doğru hata terimini elde etmek için modelden önemli olmayan faktörleri ortadan kaldırmak, yazılımınızın sizin için otomatik olarak yapmamasına rağmen, otomatik bir model arama prosedürüne mantıksal olarak eşdeğerdir. Bunu yapmakla ilgili birçok sorun olduğunu bilmelisiniz. Bu sorunlar ve alternatif prosedürler CV 3'te başka bir yerde tartışılmaktadır .

Son bir konu farklı SS türleri ile ilgilidir. Birincisi, farklı SS türlerinin kullanımı sizi analizinizin mantıklı bir gerekçesine ihtiyaç duymaz. Dahası, tip I - III SS farklı bir konuyla ilgilidir. Örneğinizde, faktörlerinizi dik olarak topluyorum, yani her bir faktör seviyesi kombinasyonuna eşit n atadığınız bir deney yaptınız. Ancak, gözlemsel bir çalışma yaparsanız veya okulu bırakma sorunlarınız varsa, faktörleriniz ilişkilendirilir. Bunun sonuçları, SS'yi bölümlere ayırmanın benzersiz bir yolu olmadığı ve bu nedenle analizlerinizin üretmesi için benzersiz bir cevap olmadığıdır. Diğer bir deyişle, çeşitli SS türleri, faktörleriniz korelasyonlu olduğunda F testiniz için farklı olası paylarla ilgilidir 4 .

1. Çok seviyeli modellerde, bir faktörün, modelin nasıl belirtildiğine bağlı olarak diğer faktörlerden değişkenliği içerecek şekilde teorize edilebileceğini unutmayın. Burada sıradan ANOVA'yı tartışıyorum.
2. Bakınız: 2. IV'ü eklemek 1. IV'ü nasıl önemli hale getirebilir?
3. Bkz . Otomatik model seçimi için algoritmalar .
4. Bakınız: Tip I (sıralı) ANOVA ve MANOVA nasıl yorumlanır?


1
Cevabınız için teşekkürler! Ama% 100 ikna değilim: "RSS (A) sadece artık hata daha fazlasını içerir, aynı zamanda bilinen faktörler nedeniyle değişkenlik içerir" diyorsunuz. Ancak bu, doğru modelin ne olduğuna bağlıdır. Belki de ve etkisi yoktur - bunu bilmiyoruz, sadece test ettiğimiz bir hipotez. Ve varsayılan etkilere ek olarak, bilinmeyen etkiler de olabilir. Peki hangi modeli gerçeğe daha yakın olan a priori'yi nasıl haklı gösterebiliriz? Regresyonda durum eşdeğerdir. Danışabileceğim bazı edebiyat kaynaklarınız var mı? A : BBA:B
caracal

1
+1 ve ben ilk büyük paragrafınıza örnek vermeye çalışan bir yanıt gönderdik.
amip diyor Reinstate Monica

0

Gerekçelendirme, faktör A'nın A + B modelinde açıklanamayan varyasyonun A modeline kıyasla daha büyük bir yüzdesini açıklamasıdır, çünkü faktör B önemli bir kısmı açıklar (ve böylece analizden 'kaldırır').

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.