Birkaç grubun ortalamalarını karşılaştırmak için ANOVA ile iç içe modelleri karşılaştırmak için ANOVA arasındaki ilişki nedir?


12

Şimdiye kadar ANOVA'nın iki şekilde kullanıldığını gördüm:

İlk olarak , giriş istatistik metnimde, ANOVA, araçlardan birinin istatistiksel olarak anlamlı bir fark olup olmadığını belirlemek için, üç veya daha fazla grubun ortalamalarını karşılaştırmak için, ikili karşılaştırmaya göre bir iyileştirme olarak tanıtıldı.

İkincisi , istatistiksel öğrenme metnimde, Model 2'nin öngörücülerinin bir alt kümesini kullanan Model 1'in verilere eşit olarak uyup uymadığını belirlemek için ANOVA'nın iki (veya daha fazla) iç içe modeli karşılaştırmak için kullanıldığını gördüm. Model 2 daha üstündür.

Şimdi bir şekilde bu iki şeyin aslında çok benzer olduğunu varsayıyorum çünkü ikisi de ANOVA testi kullanıyorlar, ancak yüzeyde benim için oldukça farklı görünüyorlar. Birincisi, ilk kullanım üç veya daha fazla grubu karşılaştırırken, ikinci yöntem sadece iki modeli karşılaştırmak için kullanılabilir. Birisi bu iki kullanım arasındaki bağlantıyı açıklığa kavuşturur mu?


3
Kısacası, ikinci "anova" nın hiç bir ANOVA olmadığını düşünüyorum ( en.wikipedia.org/wiki/Analysis_of_variance okuduğunuzda , iç içe geçmiş modellerin karşılaştırılmasından bahsedilmeyecektir). Bu bir en.wikipedia.org/wiki/F-test ve R'de anova()fonksiyon olarak uygulandı , çünkü ilk, gerçek, ANOVA da bir F testi kullanıyor. Bu terminoloji karışıklığına yol açar.
amo

Teşekkürler kafasına çiviyi vurduğunu düşünüyorum! anova()İşlevin ANOVA'dan daha fazlasını yapabileceğini düşünmemiştim . Bu gönderi sonucunuzu destekliyor: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin

1
Bir grad istatistikçisi tarafından, çok örnekli bir test olarak ANOVA'nın, iç içe geçmiş bir modelin üstünlüğü testi ile ANOVA ile aynı şey olduğu öğretildi. Aynı şey, benim görüşüme göre, hiçbir model veya daha basit bir modelden kaynaklanan kalıntıların toplamını (veya ortalamalarını) bir modelden kaynaklanan kalıntılarla karşılaştırdığımız anlamına gelir ve F-testi, varsayımların karşılandığı göz önüne alındığında her iki durum için de geçerlidir. Denediğim cevap kesinlikle bununla ilgili. Ben kendim sıfırdan farklı en az bir lm katsayısı (tek model F-istatistikleri) ile kalanların toplamı arasındaki bağlantıyı anlamak istiyorum.
Alexey Burnakov

Yanıtlar:


11

Anladığım kadarıyla, ANOVA'nın soyut sezgisi şudur: Gözlenen değişkenin çeşitli yönlerindeki varyans kaynaklarını ayrıştırır ve ilgili katkıları araştırır. Daha kesin olmak gerekirse, kişi kimlik haritasını bir dizi projeksiyona ayırır ve hangi projeksiyonların / yönlerin varyansı açıklamak için önemli bir katkı sağlayıp hangilerinin yapmadığını araştırır. Teorik temel Cochran'ın teoremidir .

Daha az soyut olmak gerekirse , OP tarafından bahsedilen ikinci formu yeni tarif edilen çerçeveye döktüm. Daha sonra, ilk formu ikincisinin özel bir durumu olarak yorumluyorum .

KKJJ

J

KJJH0: J

RSSrestrRSSfullJRSSfullNK
J

μAμBμCH0:μA=μB=μC

RSSinterceptRSSdummies2RSSdummiesN3

+1. Buradaki yorumdaki terminoloji ile ilgili sözlerimi kabul edip etmeyeceğinizi merak ediyorum: stats.stackexchange.com/questions/315979/#comment602611_315979 .
amip

Terminolojide çok fazla karışıklık olduğu konusunda kesinlikle hemfikirim ;-). Coloquially, ANOVA'yı sadece OP'nin ilk formuyla ilişkilendiriyorum. Scheffé'nin "iç içe tasarımlardan" bahsedildiği "Varyans Analizi" kitabına bir göz attım.
bmbb

@bmbb, son yorumunuza şunu ekleyeceğim: iç içe lm modellerini karşılaştırdığımız basit bir durum, bunlardan biri sadece kesişme. Kesinti ile model hakkında beni vuran gerçeği, artıklarına baktığımızda gerçekten varyansına atıfta bulunduğumuzdur, çünkü artıklar değişken bir ortalamaya (modelin kesiştiği) göre hesaplanır ve bunlar örnek ortalama. Bu nedenle, artıkları resmi olarak analiz etsek bile, iç içe geçmiş modellerde varyans analizini hala yapıyoruz.
Alexey Burnakov

6

Gruplar arasında önemli bir fark olup olmadığını test etmek için tek yönlü ANOVA yapıyorsanız, örtük olarak iki iç içe modeli karşılaştırıyorsunuzdur (bu nedenle yalnızca bir iç içe yerleştirme düzeyi vardır, ancak yine de iç içe geçmektedir).

Bu iki model:

  • yijijβ^0
    yij=β^0+ϵi
  • Model 1: Değerler, grupların tahmini araçları ile modellenmiştir.

    βj^

    yi=β^0+β^j+ϵi

Ortalamaları ve iç içe modelleri karşılaştırmak için bir örnek: sepal uzunluğu (cm) iris veri kümesinden alalım (dört değişkeni de kullanırsak, aslında Fisher 1936'da yaptığı gibi LDA veya MANOVA yapıyor olabiliriz)

Gözlemlenen toplam ve grup ortalamaları:

μtotal=5.83μsetosa=5.01μversicolor=5.94μvirginica=6.59

Model biçiminde olan:

model 1: yij=5.83+ϵimodel 2: yij=5.01+[00.931.58]j+ϵi

ϵi2=102.1683

ϵi2=38.9562

ANOVA tablosu aşağıdaki gibi olacaktır (ve 2 serbestlik derecesine sahip tabloda 63.212 olan karelerin grup toplamı arasındaki farkı dolaylı olarak hesaplayacaktır ):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F=RSSdifferenceDFdifferenceRSSnewDFnew=63.212238.956147=119.26

örnekte kullanılan veri kümesi:

Üç farklı Iris çiçeği türü için taç uzunluğu (cm)

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1 ancak veri tablosunu bir lateks tablosu olarak biçimlendirmek gerçekten kötü bir uygulamadır! Kimse kopyalayıp yapıştıramaz! Verileri gerçekten dahil etmek istiyorsanız, neden bir kod bloğu olarak biçimlendirmiyorsunuz? Ancak bu durumda, verileri içeren Wikipedia Fisher Iris makalesine de bağlanabilirsiniz.
amip

Bunun dışında, bu yorumda bahsettiğim terminoloji sorununa ne katıyorsunuz ? Stat.stackexchange.com/questions/315979/#comment602611_315979 ?
amip

1
Bulanık terminolojinin büyük bir sorun olduğuna inanmıyorum. Bence ANOVA'yı hiçbir zaman gruplar içinde ve gruplar arasındaki varyans karşılaştırması olarak görmüyorum ve her zaman iki modelin karşılaştırılmasına zihinsel projeksiyon yapmıyorum. Bunun büyük bir sorun olduğuna inanmıyorum çünkü iki bağımsız ki-kare dağılım değişkeninin oranı olan f-dağılımı belli bir anlamda, bir varyasyon oranı. İç içe modelleri incelemek için f-testini uygulamak bir çeşit varyasyonları karşılaştırmak, varyasyonları analiz etmek, bu nedenle ANOVA bana iyi geliyor (şu anda bazı tarihsel referansları aramaya çalışıyorum).
Sextus Empiricus

Bunun bir sorun olduğunu söylemiyorum. Ancak "ANOVA" teriminin, iç içe modelleri sadece R'de (bağlantılı yorumumda önerdiğim gibi) karşılaştıran F-testini mi yoksa daha geniş kabul görmüş bir terminoloji mi olduğunu merak ediyorum. Ders kitaplarını kontrol etmedim, bu yüzden kanıtlarım sadece Wikipedia'dan geliyor.
amip

Fisher'ın 1925 Araştırma Çalışanları için İstatistiksel Yöntemleri'nde, 'varyans analizi'ni açıkladığında, tekniği regresyon çizgilerine uygulayan örnekler içerir (ancak iç içe modeller yoktur).
Sextus Empiricus

1

ANOVA'nın birkaç model arasında karşılaştırılması, daha yüksek sıraya sahip modelde kullanılan katsayılardan en az birinin (ve daha düşük sıraya sahip modelde bulunmadığı) sıfırdan önemli ölçüde farklı olup olmadığını test etmek anlamına gelir.

Bu, yüksek mertebeden model için artıkların toplamının alt mertebeden modelden önemli ölçüde daha az olduğunu söylemekle eşdeğerdir.

Kullanılan iki temel denklem olduğu için yaklaşık iki modeldir.

MSM/MSE

MSM, alt mertebe modelin kare kalıntılarının ortalamasıdır (burada en düşük mertebe hedef değişkenin ortalaması, yani kesişme noktasıdır).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

CV ile benzer konuları okuyabilirsiniz.

İki model karşılaştırması için anova nasıl kullanılır?


IMHO bu soruya cevap vermiyor.
amip

1

Öğrendiklerimden,

Açıklayıcı değişkenlerinizin yanıt değişkeni üzerinde gerçekten önemli bir etkisi olup olmadığını belirlemek için ANOVA tablolarını kullanabilirsiniz ve bu nedenle uygun modele uyun.

x1x2x2

y=β0+β1x1+β2x2+ϵ
y=β0+β1x1+ϵ

x1

İşte R'de üzerinde çalıştığım bir proje için bir ANOVA çıktı örneği, burada iki model test ediyorum (biri Değişken Günlerle ve biri Değişken Günler olmadan):

resim açıklamasını buraya girin

Gördüğünüz gibi, F-testinden karşılık gelen p-değeri 0.13'tür, bu 0.05'ten yüksektir. Bu nedenle, Günlerin Y üzerinde hiçbir etkisi olmadığı yönündeki sıfır hipotezini reddedemeyiz. Bu yüzden, model 2 yerine model 1'i seçiyorum.


IMHO bu soruya cevap vermiyor.
amip
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.