Lojistik regresyon: anova ki-kare testi vs. katsayıların önemi (anova () vs özet () in R)


35

8 değişkenli bir lojistik GLM modelim var. R'de ki-kare testi yaptım anova(glm.model,test='Chisq')ve değişkenlerin 2'si testin başında sipariş edildiğinde öngörücü olarak ortaya çıktı, altta sipariş edildiğinde çok fazla değil. Bu summary(glm.model)onların katsayılarının önemsiz olduğunu göstermektedir (yüksek p değeri). Bu durumda değişkenlerin anlamlı olmadığı görülüyor.

Hangisinin değişkenlerin anlamlılık testinin daha iyi olduğunu sormak istedim - model özetindeki katsayı önemi veya ki-kare testi anova(). Ayrıca - ne zaman biri diğerinden daha iyidir?

Sanırım bu geniş bir soru ama dikkate alınması gereken hususlarla ilgili herhangi bir işaret takdir edilecektir.


4
Bu, lineer modellerde katsayıları test etmek için tip I ve tip III Karelerin Toplamları arasındaki farka benzerdir. Cevabımı burada okumanıza yardımcı olabilir: tip I sıralı ANOVA ve MANOVA yorumlamaları .
gung - Monica’yı eski durumuna getirme

Yanıtlar:


61

@ Gung'ın cevabına ek olarak, anovafonksiyonun gerçekte neyi test ettiğini gösteren bir örnek vermeye çalışacağım . Bu, test etmek istediğiniz hipotezler için hangi testlerin uygun olduğuna karar vermenizi sağlar .

yx1x2x3 . Şimdi, eğer lojistik regresyon modeliniz olurdu my.mod <- glm(y~x1+x2+x3, family="binomial"). Çalıştırdığınızda anova(my.mod, test="Chisq"), işlev aşağıdaki modelleri sırayla karşılaştırır:

  1. glm(y~1, family="binomial") vs. glm(y~x1, family="binomial")
  2. glm(y~x1, family="binomial") vs. glm(y~x1+x2, family="binomial")
  3. glm(y~x1+x2, family="binomial") vs. glm(y~x1+x2+x3, family="binomial")

Bu yüzden sırayla her adımda bir değişken ekleyerek daha küçük modeli bir sonraki daha karmaşık modelle karşılaştırır. Bu karşılaştırmaların her biri bir olasılık oranı testi (LR testi; aşağıya bakınız) ile yapılır. Bildiğim kadarıyla, bu hipotezler nadiren ilgi çekiyor, ancak buna sizin karar vermeniz gerekiyor.

İşte bir örnek R:

mydata      <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

# The sequential analysis
anova(my.mod, test="Chisq")

Terms added sequentially (first to last)    

     Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
NULL                   399     499.98              
gre   1  13.9204       398     486.06 0.0001907 ***
gpa   1   5.7122       397     480.34 0.0168478 *  
rank  3  21.8265       394     458.52 7.088e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

# We can make the comparisons by hand (adding a variable in each step)

  # model only the intercept
mod1 <- glm(admit ~ 1,                data = mydata, family = "binomial") 
  # model with intercept + gre
mod2 <- glm(admit ~ gre,              data = mydata, family = "binomial") 
  # model with intercept + gre + gpa
mod3 <- glm(admit ~ gre + gpa,        data = mydata, family = "binomial") 
  # model containing all variables (full model)
mod4 <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial") 

anova(mod1, mod2, test="LRT")

Model 1: admit ~ 1
Model 2: admit ~ gre
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       399     499.98                          
2       398     486.06  1    13.92 0.0001907 ***

anova(mod2, mod3, test="LRT")

Model 1: admit ~ gre
Model 2: admit ~ gre + gpa
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       398     486.06                       
2       397     480.34  1   5.7122  0.01685 *

anova(mod3, mod4, test="LRT")

Model 1: admit ~ gre + gpa
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       397     480.34                          
2       394     458.52  3   21.826 7.088e-05 ***

psummary(my.mod)

  • Katsayıları için x1: glm(y~x2+x3, family="binomial")vs. glm(y~x1+x2+x3, family="binomial")
  • Katsayıları için x2: glm(y~x1+x3, family="binomial")vs.glm(y~x1+x2+x3, family="binomial")
  • Katsayıları için x3: glm(y~x1+x2, family="binomial")vs.glm(y~x1+x2+x3, family="binomial")

Yani tüm katsayıları içeren tam modele karşı her katsayı. Wald testleri, olabilirlik oran testinin bir yaklaşımıdır. Olabilirlik oran testlerini de yapabiliriz (LR testi). İşte nasıl:

mod1.2 <- glm(admit ~ gre + gpa,  data = mydata, family = "binomial")
mod2.2 <- glm(admit ~ gre + rank, data = mydata, family = "binomial")
mod3.2 <- glm(admit ~ gpa + rank, data = mydata, family = "binomial")

anova(mod1.2, my.mod, test="LRT") # joint LR test for rank

Model 1: admit ~ gre + gpa
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       397     480.34                          
2       394     458.52  3   21.826 7.088e-05 ***

anova(mod2.2, my.mod, test="LRT") # LR test for gpa

Model 1: admit ~ gre + rank
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       395     464.53                       
2       394     458.52  1   6.0143  0.01419 *

anova(mod3.2, my.mod, test="LRT") # LR test for gre

Model 1: admit ~ gpa + rank
Model 2: admit ~ gre + gpa + rank
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1       395     462.88                       
2       394     458.52  1   4.3578  0.03684 *

psummary(my.mod)

rankanova(my.mod, test="Chisq")rankanova(mod1.2, my.mod, test="Chisq")p7,08810-5rank


1
+1, bu iyi ve kapsamlı bir açıklama. 1 küçük nokta: test="Chisq"Bir olasılık oranı testi yapmadığınızdatest="LRT" , bunun için ayarlamanız gerektiğine inanıyorum? Anova.glm .
gung - Monica 'ya geri döndürebilir

6
@gung İltifatınız için teşekkürler. test="LRT"ve test="Chisq"eş anlamlı (bağlantılı olduğunuz sayfada yazıyor).
COOLSerdash

2
Sorun değil, ama bence bu gerçekten iyi bir nokta. test="LRT"Olasılık oranı testi olduğu hemen belli olduğu için daha iyidir. Ben değiştirdim. Teşekkürler.
COOLSerdash

4
+1 Buradaki hızlı ilerlemenizden yalnızca bir ay sonra ve iyi işlenmiş, net bir açıklama sağlama becerinizden etkilendim. Çabaların için teşekkürler!
whuber

1
Mükemmel cevap. P-değerlerinin ( 7.088e-05, 0.01419, 00.03684) nasıl yorumlanması gerektiğini sorabilir miyim ?
TheSimpliFire,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.