Lojistik regresyon için Wald testi


55

Anladığım kadarıyla Wald testi, lojistik regresyon bağlamında, belirli bir tahmin değişkeninin anlamlı olup olmadığını belirlemek için kullanılır . Karşılık gelen katsayının boş hipotezini sıfır olduğu için reddeder.X

Test, katsayı değerinin standart hata değerine bölünmesinden oluşur .σ

Kafam karıştı, Z-skoru olarak da bilinir ve verilen bir gözlemin normal dağılımdan (ortalama sıfır ile) gelme ihtimalini gösterir.X/σ



2
Belki de bunun tersi olabilir, çünkü cevaptaki cevap daha da gelişti.
Firebug

Yanıtlar:


86

Katsayıların tahminleri ve lojistik regresyondaki (ve herhangi bir GLM'deki) kesişimler, maksimum olabilirlik tahmini (MLE) ile bulunur. Bu tahminler, parametreler üzerinde bir şapka ile gösterilir, . İlgili parametremiz ve bu genellikle katsayının 0'dan farklı olup olmadığını test etmek istediğimizde 0'dır. asimptotik teorisinden, ve normalde ortalama 0 ile dağıtılacağını biliyoruz (detaylar Larry Wasserman'ın tüm istatistikleri gibi herhangi bir matematiksel istatistik kitabında bulunabilir ) . Standart hataların başka bir şey olmadığını hatırlayın İçeride ISTV melerin RWMAIWi'nin0 İçeride ISTV melerin RWMAIWi'nin İçeride ISTV melerin RWMAIWi'nin0σW=( β -β 0 )θ^θ0θ^θ0istatistiklerin standart sapmalar (Sokal ve Rohlf onların kitap yazmak Biyometri : "Bir istatistik örneğin ortalama, medyan, standart sapma, korelasyon katsayısı, regresyon katsayısı, birçok bilgisayarlı veya tahmini istatistiksel miktarlarda herhangi biri", ...). Normal dağılımı ortalama 0 ve standart sapma ile standart sapmalara bölmek, standart normal dağılımı ortalama 0 ve standart sapma 1 ile verecektir. Wald istatistiği (örn. Wasserman (2006): Tüm İstatistikler , sayfa 153, 214-215): veya σW,2=(p-β0)2

W=(β^β0)se^(β^)N(0,1)
χ21χ22
W2=(β^β0)2Var^(β^)χ12
İkinci form, standart normal dağılımın karesinin 1 serbestlik derecesine sahip dağılım (2 kare standart normal dağılımın toplamı olmasından kaynaklanır. Bir 2 serbestlik dereceli dağıtma vb.).χ12χ22

İlgili parametre genellikle 0 (yani, ) olduğundan, Wald istatistiği Ne tanımladınız: Katsayının tahmini, standart hataya bölünür.β0=0

W=β^se^(β^)N(0,1)

Ne zaman bir edilir ve ne zaman bir değeri kullanılır?zt

değeri veya değeri arasındaki seçim , katsayıların standart hatasının nasıl hesaplandığına bağlıdır. Wald istatistiği standart bir normal dağılım olarak asimptotik olarak dağıldığından, değerini hesaplamak için skorunu kullanabiliriz . Artık, katsayılara ek olarak, artık varyansı da tahmin etmek zorunda kaldığımızda, değeri yerine bir değeri kullanılır . Sıradan en küçük karelerde (OLS, normal doğrusal regresyon), katsayıların varyans-kovaryans matrisi buradaztzptzVar[β^|X]=σ2(XX)1σ2(bilinmemektedir ve verilerden tahmin edilmesi gerekir) ve artıkların varyansını bir tasarım matris . OLS'de, katsayıların standart hataları, varyans-kovaryans matrisinin çapraz elemanlarının karekökleridir. bilmediğimiz için , değerini tahminiyle değiştirmeliyiz , yani: . Şimdi mesele şu: Katsayıların standart hatasını hesaplamak için artıkların varyansını tahmin etmemiz gerektiğinden, bir değeri ve dağılımını kullanmamız gerekiyor .Xσ2σ^2=s2 ttse^(βj^)=s2(XX)jj1tt

Lojistik (ve poisson) regresyonda, kalıntıların varyansı ortalama ile ilişkilidir. Eğer , ortalama bir ve varyans ilişkilidir, böylece, varyans ve ortalama. Lojistik ve poisson regresyonunda, ancak Gauss hatalarıyla regresyonda değil, beklenen varyansı biliyoruz ve ayrı ayrı tahmin etmek zorunda değiliz. Dağılım parametresi , beklenen varyansdan daha az mı yoksa az mı olduğumuzu gösterir. Eğer ise, beklenen varyans miktarını gözlemlediğimiz anlamına gelir, oysa beklenen varyansın (dağılımın altında) ve altında olduğumuz anlamına gelir.E ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pYBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1Beklenenden daha fazla bir varyansımız olduğu anlamına gelir (fazla yayılma denir). Lojistik ve poisson regresyonundaki dağılım parametresi 1 olarak sabittir, bu da skorunu kullanabileceğimiz anlamına gelir . Dağılım parametresi. Normal lineer regresyon gibi diğer regresyon türlerinde, artık varyansı tahmin etmemiz gerekir ve böylece değerlerini hesaplamak için bir değeri kullanılır . İse , bu iki örneklere bakın:ztpR

Lojistik regresyon

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Dağılım parametresinin 1 olarak sabitlendiğine ve dolayısıyla değerlerine sahip olduğumuza dikkat edin .z


Normal doğrusal regresyon (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

Burada, artık varyansı tahmin etmeliyiz ("Artık standart hata" olarak adlandırılır) ve dolayısıyla - değerleri yerine -değerlerini kullanırız . Tabii ki, büyük örneklerde dağılımı normal dağılıma yaklaşır ve fark önemli değildir.z ttzt

Başka bir ilgili yazı burada bulunabilir .


1
Tüm sorularıma cevap veren bu güzel yazı için çok teşekkür ederim.
user695652

1
Bu yüzden, pratik olarak, mükemmel cevabınızın ilk kısmı ile ilgili olarak: Eğer bir nedenden ötürü, oran veya Wald istatistiğinin bir çıktısını elde edersem, standart hatayı şu şekilde hesaplayabilirim: SE = (1 / Wald- istatistik) * ln (OR) Bu doğru mu? Teşekkürler!
Sander W. van der Laan,

1
@ SanderW.vanderLaan Yorumunuz için teşekkür ederiz. Evet, doğru olduğuna inanıyorum. Bir lojistik regresyon gerçekleştirirseniz, Wald istatistikleri z değeri olacaktır.
COOLSerdash 11:15

2
Harika bir cevap !! Bazı revizyon önerilerim var: Şahsen bu cevabın detayları yumruk listeleriyle karıştırdığını hissediyorum. Doğrusal regresyonun kalıntıların varyansını nasıl kullandığının ayrıntılarını ayrı bir grafiğe koyardım.
Haitao Du

1
Ayrıca dağılım parametresi ve R koduna bağlantı için, konuşmak üzere başka bir bölüm veya ayırma çizgisi açabilir miyiz?
Haitao Du
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.