Basit doğrusal regresyonda ANOVA F testinin ardındaki mantık


17


Basit Doğrusal Regresyon Analizinde ANOVA F-testinin ardındaki mantığı anlamaya çalışıyorum. Benim sorum şu. F değeri, yani MSR/MSEbüyük olduğunda, modeli önemli olarak kabul ederiz. Bunun arkasındaki mantık nedir?


@ Can'tTell Biçimlendirme hakkında bazı yardımları burada bulabilirsiniz: stats.stackexchange.com/editing-help

Yanıtlar:


21

En basit durumda, sadece bir öngorücunun (basit regresyon) olduğunda, demek , dahil olmadığını söyler testinde gösterilebilir gözlenen varyansın daha büyük bir kısmını açıklamak yapar boş modeli (sadece kesişim noktası) ile karşılaştırıldığında. Buradaki fikir, eklenen açıklanan varyansın (toplam varyans, TSS, eksi kalıntı varyans, RSS) "anlamlı miktar" olarak kabul edilebilecek kadar büyük olup olmadığını test etmektir. Burada bir yordayıcı veya açıklayıcı değişkenli bir modeli sadece "gürültü" olan bir temel ile karşılaştırıyoruz (büyük ortalama dışında hiçbir şey).X1FX1Y

Benzer şekilde, bir istatistiğini çoklu regresyon ayarında hesaplayabilirsiniz : Bu durumda, modelde yer alan tüm öngörücülerin testine karşılık gelir, bu da HT çerçevesi altında herhangi birinin yanıtı tahmin etmede yararlı olup olmadığını merak ettiğimiz anlamına gelir. değişken. Tüm model için testinin önemli olduğu durumlarla karşılaşmanızın nedeni budur , oysa her bir regresyon katsayısıyla ilişkili veya testlerinden bazıları değildir.FFtz

istatistik görünüyor gibiF

F=(TSSRSS)/(p1)RSS/(np),

burada model parametre sayısı ve gözlem sayısıdır. Bu miktar kritik veya değeri için bir dağılımına atıfta bulunulmalıdır . Basit regresyon modeli için de geçerlidir ve klasik ANOVA çerçevesi ile bazı benzerlikler taşımaktadır.pnFp1,npp

Kenar notu. Birden fazla öngörücünüz olduğunda, bu öngörücülerin yalnızca bir alt kümesini düşünmenin model uyum kalitesini "düşürüp düşürmediğini" merak edebilirsiniz. Bu, iç içe modelleri düşündüğümüz bir duruma karşılık gelir . Bu, belirli bir regresyon modelini null bir modelle karşılaştırdığımız yukarıdaki durumlarla tamamen aynıdır (hiçbir öngörücü dahil değildir). Açıklanan varyanstaki azalmayı değerlendirmek için, her iki modelden de kalan kareler toplamını (RSS) karşılaştırabiliriz (yani, modelde mevcut öngörücülerin etkisini hesaba kattığınızda açıklanamayan). Let ve baz model ifade ile (M0M1pparametreler) ve ilave bir prediktörü (bir model, parametreler), daha sonra ise olduğu küçük, küçük modelin büyük model kadar iyi performans gösterdiğini düşünürüz. Kullanılacak iyi bir istatistik, bu tür SS’lerin Serbestlik derecelerine göre ağırlıklandırılmış ( pay için ve payda için ). Daha önce de belirtildiği gibi, bu miktarın ve serbestlik derecelerine sahip bir (veya Fisher-Snedecor) dağılımını izlediği gösterilebilir . Gözlenenq=p+1RSSM1RSSM0(RSSM1RSSM0)/RSSM0pqnpFpqnpFbelirli bir (tipik olarak ) karşılık gelen miktarından daha büyükse , daha büyük modelin "daha iyi bir iş" yaptığını söyleyebiliriz. (Bu hiçbir şekilde modelin pratik açıdan doğru olduğu anlamına gelmez!)Fαα=0.05

Yukarıdaki fikrin genelleştirilmesi, olasılık oranı testidir .

R kullanıyorsanız, yukarıdaki gibi kavramlarla oynayabilirsiniz:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

@chl - Her şeyden önce, güzel cevap! Bu, kendi sorusunu garanti edebilir, bu yüzden bana bildirin ... ancak regresyon modelleri için ANOVA tabloları hakkında okuduğum açıklamalar tipik olarak tablodaki üç satıra atıfta bulunur: öngörücüler, hatalar ve toplam. Bununla birlikte, anova()R'deki işlev, modeldeki her bir yordayıcı için ayrı bir satır döndürür. Örneğin, anova(lm0)yukarıda belirtilen bir satır döndürür V1, V2ve Residuals(ve toplam). Bu nedenle, bu model için iki F * istatistiği elde ediyoruz. Bu, ANOVA tablosunda bildirilen F * istatistiği yorumunu nasıl değiştirir?
Chase

@ Aşama Evet, aklımdaki ANOVA Tablosu da bu şekilde düzenlenmiş. Soruyu sormaktan çekinmeyin; Diğer kullanıcıların bunun hakkında ne düşündüğünü duymak isterim. Genelde anova()GLM karşılaştırması için kullanıyorum . Bir lmveya aovnesneye uygulandığında , modeldeki her terim için ayrı efektler (SS) görüntüler ve TSS'yi göstermez. (Bunu başka bir şekilde uygulardım, yani bir ANOVA'yı taktıktan sonra , tedavi kontrastları hakkında bir fikir edinmek için aov()kullanabilirim summary.lm().) Bununla birlikte, summary.lm()ve summary.aov()özellikle sıralı bağlantı ile ilgili ince sorunlar var .
chl

@ Aşama @ @Gavin'den R'nin lm () çıktısının yorumlanması hakkındaki bu çok güzel yanıtı yeniden keşfettim .
chl

@chl - Benden azarlama. F-testinin ardındaki sezgi ve “doğru yönlere” nasıl geldiği hakkında güzel bir cevap . Ancak bu testi neden seçmeniz gerektiği mantığını açıklamıyor. Örneğin, PRESS istatistiğini neden kullanmamalıyız? - Sen olabilirlik oranı ima yapar mantıklı gerekçe var - dolayısıyla onun uygulanabilirliğini tüm modellere, F-testi aksine.
olasılık

@probabilityislogic İyi bir nokta. Benim fikrim aslında, basit regresyon modelinin sadece belirli bir durum olduğu ("çok null" modele kıyasla) model karşılaştırmasının ardındaki mantığı göstermekti, bu da LRT hakkında hızlı notu motive ediyordu. HT için saf bir Neyman-Pearson yaklaşımı doğrultusunda çalışırsak, size katılıyorum. Bununla birlikte, esas olarak, SS'nin doğrudan geometrik bir yorumu olduğu ve tek yönlü bir ANOVA için model karşılaştırmasının veya tek F testinin (...)
chl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.