Doğrusal regresyonda kategorik değişken için istatistiksel önem nasıl test edilir?


18

Doğrusal bir regresyonda kategorik değişkenim varsa ... kategorik değişkenin durağan önemini nasıl bilebilirim?

Diyelim ki faktörü X110 seviyeye sahip ... bir faktör değişkeni şemsiyesi altında 10 farklı sonuç t-değeri olacak X1...

Bana öyle geliyor ki, istatistiksel anlamlılık faktör değişkeninin her seviyesi için test ediliyor mu? Hayır?

@Macro: Önerinizi takiben aşağıdaki örneği oluşturdum:

Aşağıdaki model karşılaştırmasından x3'ün faydalı olduğu ve modele dahil edilmesi gerektiği görülmektedir.

Ama aslında bu yanlış ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@ Luna, bu neden yanlış? S'yi x3oluşturmak için kullandığınız anlaşılıyor y, bu yüzden modele dahil edilmelidir ve değeri bu sonuca katılır. p
Makro

@Seth - haklısın. Anova'nın genel olarak model karşılaştırmasında kullanılmasına ilişkin bir oyuncak örneği veriyordum. Yani asıl sorumla bağlantılı değil.
Luna

@Macro - haklısın. Şimdi anlıyorum. Teşekkür ederim!
Luna

R 'araba' paketinden ( pdf ) 'Anova' işlevi, kategorik bir değişkenin genel önemini test etmenizi sağlar. Birçok farklı paket ve regresyon türüyle çalışır.
SK4ndal

Yanıtlar:


28

Bu -değerlerinin yalnızca her bir düzeyin ortalamasının referans düzeyinin ortalamasından önemli ölçüde farklı olup olmadığını size söylediğinizden emin olabilirsiniz . Bu nedenle, size sadece seviyeler arasındaki ikili farkları anlatırlar . Kategorik öngörücünün bir bütün olarak anlamlı olup olmadığını test etmek, öngörücünün düzeylerinde herhangi bir heterojenite olup olmadığının test edilmesine eşdeğerdir. Modelde başka yordayıcı olmadığında, bu klasik bir ANOVA problemidir.p

Modelde başka öngörücüler olduğunda. kategorik bir öngörücünün önemini test etmek için iki seçeneğiniz vardır:

(1) olabilirlik oran testi: Bir sonuç olduğunu varsayalım , kantitatif belirleyiciler X i 1 , . . . , X, i p ve kategorik belirleyici ı ile k seviyeleri. Kategorik öngörücüsü olmayan modelYiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

İçinde Rbu modeli lm()komutla sığdırabilir ve günlük olasılığını komutla çıkarabilirsiniz logLik. Bu günlük olabilirliği . Daha sonra, modeli kategorik öngörücü ile sığdırabilirsiniz:L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

burada olan bir kukla 1 ise D i = j ve 0 , aksi. K 'inci düzey sadece orada yüzden referans seviyesi olan k - 1 toplamında terimleri. kategorik değişkeni iletirseniz, bu kukla kodlamayı sizin için otomatik olarak yapar . Bu modeli benzer şekilde sığdırabilir ve günlük olasılığını yukarıdaki gibi çıkarabilirsiniz. Bu günlük olabilirliği L 1 olarak adlandırın . Daha sonra, D i'nin bir etkisi olmadığı sıfır hipotezi altında ,Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

Bir sahiptir ile dağıtım k - 1 serbestlik derecesine. Yani, hesaplayabilirsiniz p kullanarak -değeri içinde önemi için teste.χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

(2) -test:F Ayrıntılara girmeden (log-olasılıklardan ziyade karelerin toplamı kullanılması dışında LRT'ye benzer), bunun nasıl yapılacağını açıklayacağım R. Komutu (buna çağır ) ve kategorik öngörücüsü olmayan modeli (buna çağır ) Rkullanarak "tam" modeli (yani kategorik öngörücü dahil tüm öngörücülere sahip modeli) takarsanız , bu hipotezi test eder. siz de.lm()g1g0anova(g1,g0)

F


Çok teşekkürler Macro. Verilerimin oldukça normal olmadığını gördüm. QQ grafiği aşağıdaki gibidir: eğri düz 45 derecelik çizginin altındadır. Eğri bu düz çizgiye teğettir. Ve eğri, f (x) = - x ^ 2 (şekil olarak) eğrisine benziyor. Ne tür bir sorunla karşılaşıyorum? Bunu nasıl düzeltebilirim? Teşekkür ederim!
Luna

1
@Luna, Verileriniz son derece normal değil veya artıklar son derece normal değil mi? Ayrıca, tüm puan kümesinin 45 derecelik çizginin altında kalmasının mümkün olduğunu düşünmüyorum.
Makro

aslında haklısın ... QQ grafiğine bir kez daha baktım. 45 derecenin altındaki noktaların tamamı değil. F (x) = - x ^ 2 şeklinde eğri 45 derecelik çizgiye "teğet" tir. "Teğet" ile "teğet" noktasının etrafındaki noktaların aslında 45 derecelik çizginin üzerinde olduğu anlamına gelmeliydim. Bu nedenle, görsel olarak konuşursak, verilerin çoğu (~% 98) 45 derece çizgisinin altında ... model karşılaştırması yapmadan önce bu sorunu gidermek için önce ne yapmalıyım? Teşekkür ederim!
Luna

2
Örnek boyutunuz oldukça büyükse, p- hata dağılımınız uzun kuyruklu olmadığı sürece, değerler yine de makul olmalıdır (merkezi limit teoremi ile). Kategorik değişkeni tek başına test etmek istiyorsanız, parametrik olmayan bir ANOVA kullanabilirsiniz: en.wikipedia.org/wiki/…, ancak dediğim gibi, bu gerçekten pozlanandan tamamen farklı bir soru haline geliyor ve daha uygun bir şekilde yeni bir soru olarak ortaya konabilir veya ilgili bir soru için sitede arama yapılarak yanıtlanabilir.
Makro

1
@ Druss2k, evet bu doğru.
makro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.