Basit Doğrusal Regresyon Analizinde ANOVA F-testinin ardındaki mantığı anlamaya çalışıyorum. Benim sorum şu. F değeri, yani
MSR/MSE
büyük olduğunda, modeli önemli olarak kabul ederiz. Bunun arkasındaki mantık nedir?
Basit Doğrusal Regresyon Analizinde ANOVA F-testinin ardındaki mantığı anlamaya çalışıyorum. Benim sorum şu. F değeri, yani
MSR/MSE
büyük olduğunda, modeli önemli olarak kabul ederiz. Bunun arkasındaki mantık nedir?
Yanıtlar:
En basit durumda, sadece bir öngorücunun (basit regresyon) olduğunda, demek , dahil olmadığını söyler testinde gösterilebilir gözlenen varyansın daha büyük bir kısmını açıklamak yapar boş modeli (sadece kesişim noktası) ile karşılaştırıldığında. Buradaki fikir, eklenen açıklanan varyansın (toplam varyans, TSS, eksi kalıntı varyans, RSS) "anlamlı miktar" olarak kabul edilebilecek kadar büyük olup olmadığını test etmektir. Burada bir yordayıcı veya açıklayıcı değişkenli bir modeli sadece "gürültü" olan bir temel ile karşılaştırıyoruz (büyük ortalama dışında hiçbir şey).
Benzer şekilde, bir istatistiğini çoklu regresyon ayarında hesaplayabilirsiniz : Bu durumda, modelde yer alan tüm öngörücülerin testine karşılık gelir, bu da HT çerçevesi altında herhangi birinin yanıtı tahmin etmede yararlı olup olmadığını merak ettiğimiz anlamına gelir. değişken. Tüm model için testinin önemli olduğu durumlarla karşılaşmanızın nedeni budur , oysa her bir regresyon katsayısıyla ilişkili veya testlerinden bazıları değildir.
istatistik görünüyor gibi
burada model parametre sayısı ve gözlem sayısıdır. Bu miktar kritik veya değeri için bir dağılımına atıfta bulunulmalıdır . Basit regresyon modeli için de geçerlidir ve klasik ANOVA çerçevesi ile bazı benzerlikler taşımaktadır.
Kenar notu. Birden fazla öngörücünüz olduğunda, bu öngörücülerin yalnızca bir alt kümesini düşünmenin model uyum kalitesini "düşürüp düşürmediğini" merak edebilirsiniz. Bu, iç içe modelleri düşündüğümüz bir duruma karşılık gelir . Bu, belirli bir regresyon modelini null bir modelle karşılaştırdığımız yukarıdaki durumlarla tamamen aynıdır (hiçbir öngörücü dahil değildir). Açıklanan varyanstaki azalmayı değerlendirmek için, her iki modelden de kalan kareler toplamını (RSS) karşılaştırabiliriz (yani, modelde mevcut öngörücülerin etkisini hesaba kattığınızda açıklanamayan). Let ve baz model ifade ile (parametreler) ve ilave bir prediktörü (bir model, parametreler), daha sonra ise olduğu küçük, küçük modelin büyük model kadar iyi performans gösterdiğini düşünürüz. Kullanılacak iyi bir istatistik, bu tür SS’lerin Serbestlik derecelerine göre ağırlıklandırılmış ( pay için ve payda için ). Daha önce de belirtildiği gibi, bu miktarın ve serbestlik derecelerine sahip bir (veya Fisher-Snedecor) dağılımını izlediği gösterilebilir . Gözlenenbelirli bir (tipik olarak ) karşılık gelen miktarından daha büyükse , daha büyük modelin "daha iyi bir iş" yaptığını söyleyebiliriz. (Bu hiçbir şekilde modelin pratik açıdan doğru olduğu anlamına gelmez!)
Yukarıdaki fikrin genelleştirilmesi, olasılık oranı testidir .
R kullanıyorsanız, yukarıdaki gibi kavramlarla oynayabilirsiniz:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
R'deki işlev, modeldeki her bir yordayıcı için ayrı bir satır döndürür. Örneğin, anova(lm0)
yukarıda belirtilen bir satır döndürür V1
, V2
ve Residuals
(ve toplam). Bu nedenle, bu model için iki F * istatistiği elde ediyoruz. Bu, ANOVA tablosunda bildirilen F * istatistiği yorumunu nasıl değiştirir?
anova()
GLM karşılaştırması için kullanıyorum . Bir lm
veya aov
nesneye uygulandığında , modeldeki her terim için ayrı efektler (SS) görüntüler ve TSS'yi göstermez. (Bunu başka bir şekilde uygulardım, yani bir ANOVA'yı taktıktan sonra , tedavi kontrastları hakkında bir fikir edinmek için aov()
kullanabilirim summary.lm()
.) Bununla birlikte, summary.lm()
ve summary.aov()
özellikle sıralı bağlantı ile ilgili ince sorunlar var .