Tip I, tip II ve tip III ANOVA ve MANOVA nasıl yorumlanır?


45

Birincil sorum, bir Tip I (sıralı) ANOVA yürütürken çıktının (katsayılar, F, P) nasıl yorumlanacağıdır?

Özel araştırma problemim biraz daha karmaşık, bu yüzden örneğimi parçalara ayıracağım. Öncelikle, örümcek yoğunluğunun (X1) bitki büyümesi (Y1) üzerindeki etkisiyle ilgileniyorsam ve fideleri muhafazalara yerleştirdim ve örümcek yoğunluğunu değiştirdim, sonra verileri basit bir ANOVA veya lineer regresyon ile analiz edebilirim. O zaman ANOVA'm için Tip I, II veya III Kareler Toplamı (SS) kullanmamın bir önemi olmazdı. Benim durumumda, 5 yoğunluk seviyesinin 4 kopyası var, bu yüzden yoğunluğu bir faktör olarak ya da sürekli bir değişken olarak kullanabilirim. Bu durumda, onu sürekli bağımsız (yordayıcı) bir değişken olarak yorumlamayı tercih ederim. RI'de aşağıdakileri çalıştırabilir:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

Anova işlevini çalıştırmak, daha sonra umarım karşılaştırma yapmak için anlamlı olacaktır, bu yüzden lütfen burada garipliğini göz ardı edin. Çıktı:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

Şimdi, toprakta kontrol edemediğim inorganik azotun başlangıç ​​seviyesinin bitki büyümesini de önemli ölçüde etkilemiş olabileceğinden şüpheliyim diyelim. Bu etkiyle özellikle ilgilenmiyorum ama neden olabileceği çeşitliliği potansiyel olarak hesaba katmak istiyorum. Gerçekten, birincil ilgi alanım örümcek yoğunluğunun etkilerine (hipotez: artan örümcek yoğunluğunun artması bitkilerin büyümesine neden oluyor - muhtemelen otçul böceklerin azaltılmasıyla ama sadece etkiyi denemiyorum). İnorganik N'nin etkisini analizime ekleyebilirim.

Sorumum uğruna, inorganicN etkileşim yoğunluğunu * test ettiğimi ve önemsiz olduğunu iddia edelim, analizden çıkardım ve aşağıdaki ana etkileri yürüttüm:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

Şimdi, Tip I veya Tip II SS kullanıp kullanmamam fark yaratıyor (bazılarının Tip I ve II vb. Terimlerine itiraz ettiğini biliyorum, ancak SAS'ın popülaritesi göz önüne alındığında kolay anlaşılır). Anova {stats}, varsayılan olarak Tip I kullanır. Ana etkilerin sırasını tersine çevirerek yoğunluk için II SS, F ve P tipini hesaplayabilir veya Dr. John Fox'un "araba" paketini (uygulamalı regresyona eşlik eden) kullanabilirim. İkinci yöntemi tercih ederim çünkü daha karmaşık problemler için daha kolay.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

Benim anlayışım, tip II hipotezlerinin "x1'in (sabit tutma? X2) 'nin etkisi göz önüne alındığında y1 üzerinde doğrusal bir etkisi olmadığı" ve x1'de verilen x2 için aynı olacağıdır. Sanırım burası kafamın karıştığı yer. ANOVA tarafından yukarıdaki tip I (sıralı) yöntem kullanılarak tip II yöntem kullanılarak yapılan hipoteze kıyasla test edilen hipotez nedir?

Gerçekte, verilerim biraz daha karmaşık, çünkü çok sayıda bitki gelişimi ölçüsünü, besin dinamiklerini ve çöp ayrışmasını ölçtüm. Gerçek analizim şöyle bir şey:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

Yanıtlar:


71

Sen ne diyorsun tip II SS, ben tip III SS ararım. Diyelim ki A ve B'nin sadece iki faktörü olduğunu hayal edelim (ve tip II SS'yi ayırt etmek için daha sonra A * B etkileşimine gireceğiz). Bundan başka, olduğu tahmin sağlar farklı , dört hücre sistemleri (örneğin, s 11, = = 9, 9 = ve 11 =). Şimdi iki faktörün birbiriyle korele. (Onları bu Kendiniz deneyin 1'lerini 2 sütun ve 0'lar yapmak ve korelasyon ; bunun önemi eğer does nb 'anlamlı' olduğunu, bütün nüfusu önemsediğiniz olduğunu). Etkenlerinizin ilişkili olması ile ilgili sorun, her ikisiyle de ilişkili olan kareler toplamının olmasıdır.nn11n12n21n22r=.1rA ve B. Bir ANOVA (veya başka bir doğrusal regresyon) hesaplarken , karelerin toplamını bölmek istiyoruz . Bir bölüm tüm karelerin toplamını bir ve sadece bir taneye koyarBirkaç altkümenin (Örneğin, SS'yi A, B ve hataya bölmek isteyebiliriz.) Ancak, faktörleriniz (hala burada sadece A ve B) ortogonal olmadığından, bu SS'lerin benzersiz bir bölümü yoktur. Aslında, çok fazla bölüm olabilir ve SS'nizi kesirler halinde kesmeye istekliyseniz (örneğin, "Bu kutuya .5 koyacağım ve .5'e bu koyacağım"), sonsuz bölümler vardır. Bunu görselleştirmenin bir yolu, MasterCard sembolünü hayal etmektir: Dikdörtgen, toplam SS'yi temsil eder ve dairelerin her biri, bu faktöre atfedilebilen SS'yi temsil eder, ancak merkezdeki daireler arasındaki örtüşmeyi fark eder, bu SS'ler verilebilir. iki daireye.

görüntü tanımını buraya girin

Soru şudur: Tüm bu olasılıklardan 'doğru' bölümü nasıl seçeriz? Etkileşimi geri getirelim ve bazı olasılıkları tartışalım:

SS SS yazın:

  • SS (A)
  • SS (B | A)
  • SS (A * B | A, B)

II. Tip SS:

  • SS (A | B)
  • SS (B | A)
  • SS (A * B | A, B)

III. Tip SS:

  • SS (A | B, A * B)
  • SS (B | A, A * B)
  • SS (A * B | A, B)

Bu farklı olasılıkların nasıl çalıştığına dikkat edin. Sadece tip I SS, bu SS'yi, MasterCard sembolündeki daireler arasındaki örtüşen kısımda kullanır. Yani, A veya B'ye atfedilebilecek SS , aslında I tipi (özellikle modele ilk girdiğiniz mod) kullandığınızda bunlardan birine atfedilir. Diğer yaklaşımlar, hem de, üst üste binen SS kullanılmaz hiç . Böylece, SSİ A, A'ya atfedilebilecek tüm SS'leri (başka bir yerde atfedilebilenler de dahil olmak üzere) A'ya verir, daha sonra B'ye atfedilebilecek kalan SS'nin tamamını B'ye verir, sonra A * B'nin hepsine A etkileşimi verir. arasında kalanA * B'ye atfedilebilen SS ve hiçbir şeye atfedilemeyen kalanları hata terimine bırakır.

Tip III SS Sadece olan bu SS verir benzersiz aynı şekilde sadece B ve vardır etkileşim o SS verir, A atfedilebilir benzersiz kendilerine atfedilen. Hata terimi yalnızca faktörlerin hiçbirine atfedilemeyen SS'leri alır. Bu nedenle, 2 veya daha fazla olasılıkla ilişkilendirilebilecek 'belirsiz' SS'ler kullanılmaz. Bir ANOVA tablosundaki III SS tipini toplarsanız, toplam SS'ye eşit olmadıklarını fark edeceksiniz. Başka bir deyişle, bu analiz yanlış olmalı , fakat epistemik olarak muhafazakar bir şekilde. Birçok istatistikçi bu yaklaşımı korkunç buluyor, ancak devlet finansman kuruluşları (FDA'nın kullanımlarını gerektirdiğini düşünüyorum).

Tip II yaklaşımı, III. Spesifik olarak, etkileşimi değil, sadece A ve B için SS'yi ayarlar. Bununla birlikte, pratikte II. Tip SS esasen asla kullanılmaz. Bunların hepsini bilmeniz ve bu tahminleri elde etmek için yazılımınızla ve genellikle bunun ranza olduğunu düşünen analistler ile yeterince anlayışlı olmanız gerekir.

Daha fazla SS türü var (inanıyorum ki IV ve V). 60'lı yılların sonlarında belirli durumlarla baş etmeleri önerildi, ancak daha sonra sanılan şeyi yapmadıklarını gösterildi. Dolayısıyla, bu noktada onlar sadece tarihi bir dipnottur.

Bu soruları cevaplayan sorulara gelince, temelde sorduğunuzda zaten bu hakkınız var:

  • Tip I SS kullanarak yapılan tahminler, Y'deki değişkenliğin ne kadarının A ile açıklanabileceğini, artık değişkenliğin ne kadarının B ile açıklanabileceğini, kalan artık değişkenliğin ne kadarının etkileşimle açıklanabileceğini, vb. sırayla .
  • Tip III SS dayanan tahminler A hesaba nasıl Y'de kalıntı değişkenlik kadarını söyleyebilirim sonra her şey hesaba sahip ve ne kadar Y'de kalıntı değişkenlik B tarafından açıklanabilir sonra her şey hesaba sahip yanı sıra, vb. (Aynı anda hem ilk hem de sonuncuya gideceğinizi unutmayın; bu size mantıklı geliyorsa ve araştırma sorunuzu doğru bir şekilde yansıtıyorsa, III.

2
çok yararlı cevap için teşekkür ederim. Kafamın karıştığı alanlardan biri de “SS tipi kullanarak yapılan tahminler, Y'deki değişkenliğin ne kadarının A ile açıklanabileceğini, artık değişkenliğin ne kadarının B tarafından açıklanabileceğini, kalanın ne kadarının açıklanabileceğidir. değişkenlik etkileşimle açıklanabilir, vb. sırasıyla, "o zaman istatistikler ek A değişkenleriyle eklendiğinde neden istatistikler A ile ilişkili? Testler SS (A) / SS (hata) 'ya dayandığından ve hata modeldeki tüm terimlerin bir fonksiyonundan mı kaynaklanıyor? Bunu doğru mu düşünüyorsun?
Ocak'ta 12:12

1
"A ile ilgili istatistikler" derken, sizi A'nın ana etkisinin F ve p değerleri anlamına geldiğini yorumluyorum. A için F değeri, A için Ortalama Kare'nin (yani SSA / dfA) oranının MS hatası. Daha fazla faktör ekledikçe, SS hata teriminden alınır ve bu faktörlere verilir. Genelde bu, MS hatasının azaldığı ve dolayısıyla oranın yükseldiği anlamına gelir. Sonuç olarak, A için F değeri büyür ve p değeri küçülür. Özgürlük dereceleri de değiştiğinden, bundan daha karmaşık olabilir, ama esas nedeni budur.
dediklerinin - Eski Monica

Hata! F istatistiği için MS (A) / MSE demek istedim. Her neyse, cevabın mükemmel, tüm yardımların için tekrar teşekkürler!
djhocking,

Bir tür I kullanırken yorumlamanın ayrıntılarını merak ediyorum. Benim durumumda yoğunluk tek ilgi alanım ve deneysel olarak manipüle ettiğim tek değişken. Ne yazık ki talihsiz, kendi başıma ya da ilgilendiğim diğer iki değişkenim hesaba kattıktan sonra yoğunluk önemsiz. Fakat inorganicN, görünüşte, bağımlı değişkenlerin bazılarındaki varyasyonun çoğunu açıkladığı için, 3. değişken olarak eklediğimde diğer 2'yi oldukça anlamlı kılıyor. Bu nedenle, yoğunluğun Y üzerinde gerçekten önemli bir etkisi var mı? Bu mantıklı mı?
djhocking

2
@JonBonJovi, MasterCard analojisinin sadece 2 faktörü var. 2 faktör artı bir etkileşim istiyorsanız, o zaman birbirleriyle örtüşen 3 alana ihtiyacınız olacaktır. 3 alanlı bir Euler diyagramı çizilmesi kesinlikle mümkün, ancak basitlik için MasterCard sembolünü kullandım. Bir etkileşim için, ilk 2 ile örtüşen bir 3. daire düşünün (örneğin, sağdan sola, ancak çoğunlukla diğerlerinin üzerinde ortalanmış olabilir); Daha sonra her bir daire (SS), A gider, B her bir üst üste binmez A B gider, ve her şey örtüşmeyen B * ya bir ya da B etkileşim gider.
gung - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.