Katsayıların tahminleri ve lojistik regresyondaki (ve herhangi bir GLM'deki) kesişimler, maksimum olabilirlik tahmini (MLE) ile bulunur. Bu tahminler, parametreler üzerinde bir şapka ile gösterilir, . İlgili parametremiz ve bu genellikle katsayının 0'dan farklı olup olmadığını test etmek istediğimizde 0'dır. asimptotik teorisinden, ve normalde ortalama 0 ile dağıtılacağını biliyoruz (detaylar Larry Wasserman'ın tüm istatistikleri gibi herhangi bir matematiksel istatistik kitabında bulunabilir ) . Standart hataların başka bir şey olmadığını hatırlayın İçeride ISTV melerin RWMAIWi'nin0 İçeride ISTV melerin RWMAIWi'nin İçeride ISTV melerin RWMAIWi'nin0σW=( β -β 0 )θ^θ0θ^θ0istatistiklerin standart sapmalar (Sokal ve Rohlf onların kitap yazmak Biyometri : "Bir istatistik örneğin ortalama, medyan, standart sapma, korelasyon katsayısı, regresyon katsayısı, birçok bilgisayarlı veya tahmini istatistiksel miktarlarda herhangi biri", ...). Normal dağılımı ortalama 0 ve standart sapma ile standart sapmalara bölmek, standart normal dağılımı ortalama 0 ve standart sapma 1 ile verecektir. Wald istatistiği (örn. Wasserman (2006): Tüm İstatistikler , sayfa 153, 214-215):
veya
σW,2=(p-β0)2
W= ( β^- β0)seˆ( β^)∼ N( 0 , 1 )
χ21χ22W2= ( β^- β0)2varˆ( β^)∼ χ21
İkinci form, standart normal dağılımın karesinin 1 serbestlik derecesine sahip dağılım (2 kare standart normal dağılımın toplamı olmasından kaynaklanır. Bir 2 serbestlik dereceli dağıtma vb.).
χ21χ22
İlgili parametre genellikle 0 (yani, ) olduğundan, Wald istatistiği
Ne tanımladınız: Katsayının tahmini, standart hataya bölünür.β0= 0
W= β^seˆ( β^)∼ N( 0 , 1 )
Ne zaman bir edilir ve ne zaman bir değeri kullanılır?zt
değeri veya değeri arasındaki seçim , katsayıların standart hatasının nasıl hesaplandığına bağlıdır. Wald istatistiği standart bir normal dağılım olarak asimptotik olarak dağıldığından, değerini hesaplamak için skorunu kullanabiliriz . Artık, katsayılara ek olarak, artık varyansı da tahmin etmek zorunda kaldığımızda, değeri yerine bir değeri kullanılır . Sıradan en küçük karelerde (OLS, normal doğrusal regresyon), katsayıların varyans-kovaryans matrisi buradaztzptzVar[β^|X]=σ2(X′X)−1σ2(bilinmemektedir ve verilerden tahmin edilmesi gerekir) ve artıkların varyansını bir tasarım matris . OLS'de, katsayıların standart hataları, varyans-kovaryans matrisinin çapraz elemanlarının karekökleridir. bilmediğimiz için , değerini tahminiyle değiştirmeliyiz , yani: . Şimdi mesele şu: Katsayıların standart hatasını hesaplamak için artıkların varyansını tahmin etmemiz gerektiğinden, bir değeri ve dağılımını kullanmamız gerekiyor .Xσ2σ^2=s2 ttseˆ(βj^)=s2(X′X)−1jj−−−−−−−−−√tt
Lojistik (ve poisson) regresyonda, kalıntıların varyansı ortalama ile ilişkilidir. Eğer , ortalama bir ve varyans ilişkilidir, böylece, varyans ve ortalama. Lojistik ve poisson regresyonunda, ancak Gauss hatalarıyla regresyonda değil, beklenen varyansı biliyoruz ve ayrı ayrı tahmin etmek zorunda değiliz. Dağılım parametresi , beklenen varyansdan daha az mı yoksa az mı olduğumuzu gösterir. Eğer ise, beklenen varyans miktarını gözlemlediğimiz anlamına gelir, oysa beklenen varyansın (dağılımın altında) ve altında olduğumuz anlamına gelir.E ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pY∼Bin(n,p)E(Y)=npVar(Y)=np(1−p)ϕϕ=1ϕ<1ϕ>1Beklenenden daha fazla bir varyansımız olduğu anlamına gelir (fazla yayılma denir). Lojistik ve poisson regresyonundaki dağılım parametresi 1 olarak sabittir, bu da skorunu kullanabileceğimiz anlamına gelir . Dağılım parametresi. Normal lineer regresyon gibi diğer regresyon türlerinde, artık varyansı tahmin etmemiz gerekir ve böylece değerlerini hesaplamak için bir değeri kullanılır . İse , bu iki örneklere bakın:ztpR
Lojistik regresyon
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Dağılım parametresinin 1 olarak sabitlendiğine ve dolayısıyla değerlerine sahip olduğumuza dikkat edin .z
Normal doğrusal regresyon (OLS)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Burada, artık varyansı tahmin etmeliyiz ("Artık standart hata" olarak adlandırılır) ve dolayısıyla - değerleri yerine -değerlerini kullanırız . Tabii ki, büyük örneklerde dağılımı normal dağılıma yaklaşır ve fark önemli değildir.z ttzt
Başka bir ilgili yazı burada bulunabilir .