ve rezidüel sapma serbestlik derecelerini kullanarak lojistik regresyon katsayılarının test edilmesi


12

Özet: Standart normal dağılım yerine lojistik regresyon katsayılarının testleri için dağılımının (rezidüel sapmaya dayalı serbestlik dereceleriyle) kullanımını destekleyen herhangi bir istatistiksel teori var mı ?t


Bir süre önce SAS PROC GLIMMIX'a bir lojistik regresyon modeli takarken, varsayılan ayarların altında lojistik regresyon katsayılarının standart normal dağılım yerine dağılımı kullanılarak test edildiğini keşfettim . Yani, GLIMMIX oranına sahip bir sütun raporlar (bu sorunun geri kalanında olarak adlandıracağım) ), aynı zamanda bir "serbestlik derecesi" sütununun yanı sıra , için dağılımının varsayılmasına dayanan bir değerit1β^1/var(β^1)zptzrezidüel sapmaya dayanan serbestlik dereceleriyle - yani serbestlik dereceleri = toplam gözlem sayısı eksi parametre sayısı. Bu sorunun altında gösteri ve karşılaştırma için R ve SAS'ta bazı kodlar ve çıktılar sağlarım. 2

Bu beni şaşırttı , çünkü lojistik regresyon gibi genelleştirilmiş doğrusal modeller için bu durumda t dağılımının kullanımını destekleyen hiçbir istatistiksel teori yoktu . Bunun yerine, bu dava hakkında bildiğimiz şeyin

  • z normal olarak "yaklaşık" olarak dağıtılır;
  • bu yaklaşım küçük örnek boyutları için zayıf olabilir;
  • Bununla birlikte , normal regresyon durumunda üstlenebildiğimiz gibi bir dağılımı olduğu varsayılamaz .zt

Şimdi, sezgisel bir düzeyde, eğer yaklaşık olarak normal olarak dağıtılırsa, aslında tam olarak olmasa bile , temelde " benzeri" bazı dağılımlara sahip olabileceği benim için makul görünmektedir . Bu yüzden dağılımının kullanımı deli gibi görünmüyor. Ama bilmek istediğim şu:zttt

  1. Aslında lojistik regresyon ve / veya diğer genelleştirilmiş doğrusal modeller durumunda gerçekten dağılımını takip ettiğini gösteren istatistiksel teori var mı ?zt
  2. Böyle bir teori yoksa, en azından bu şekilde dağılımını varsaymanın normal dağılım varsaydığı kadar iyi, hatta belki de daha iyi olduğunu gösteren makaleler var mı?t

Daha genel olarak, GLIMMIX'in burada ne yaptığı için muhtemelen temelde mantıklı olduğu sezgisinden başka gerçek bir destek var mı?

R kodu:

summary(glm(y ~ x, data=dat, family=binomial))

R çıkışı:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SAS kodu:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS çıkışı (düzenlenmiş / kısaltılmış):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1 Aslında bunu PROC GLIMMIX'taki karma efektli lojistik regresyon modelleri hakkında fark ettim ve daha sonra GLIMMIX'in bunu "vanilya" lojistik regresyonu ile de yaptığını keşfettim.

2 Aşağıdaki örnekte, 900 gözlemle, buradaki ayrımın muhtemelen pratik bir fark yaratmadığını anlıyorum. Benim açımdan bu değil. Bu sadece hızlı bir şekilde oluşturduğum ve 900'ü seçtiğim verilerdir çünkü yakışıklı bir sayıdır. Bununla birlikte, küçük örneklem büyüklüklerindeki pratik farklılıklar hakkında biraz merak ediyorum, örneğin <30.n


PROC LOGISTICSAS'ta puanına dayalı olağan alışılmış tipte testler üretilir. Acaba daha yeni fonksiyonda (genellemenin yan ürünü?) z
Affine

1
SPSS, lojistik karma efekt modellerini aynı şekilde test ediyor gibi görünüyor :(
Richard Border

Yanıtlar:


6

Gerçekte lojistik regresyon ve / veya diğer genelleştirilmiş doğrusal modeller durumunda dağıtımda z'nin gerçekten takip ettiğini gösteren istatistiksel teori var mı?

Bildiğim kadarıyla böyle bir teori yok. Düzenli olarak el-dalgalı argümanlar görüyorum ve bazen belirli bir GLM ailesi ya da diğeri için böyle bir yaklaşımı desteklemek için simülasyon deneyleri görüyorum. Simülasyonlar el yıkama argümanlarından daha ikna edicidir.

Böyle bir teori yoksa, en azından, bu şekilde dağıtımda varsaymanın normal bir dağılım varsaymanın yanı sıra, hatta belki de daha iyi olduğunu gösteren makaleler var mı?

Gördüğümü hatırladığım için değil, ama bu çok fazla şey söylemiyor.

Kendi (sınırlı) küçük örnek simülasyonlarım, lojistik durumda bir t-dağılımının normal bir varsayımdan çok daha kötü olabileceğini varsayar:

resim açıklamasını buraya girin

Burada, örneğin, popülasyon parametrelerinin her ikisinin de sıfır olduğu 15 eşdeğer x-gözlemi üzerinde sıradan bir lojistik regresyon (yani sabit etkiler, karışık değil) için Wald istatistiğinin 10000 simülasyonunun sonuçları (QQ grafikleri olarak) vardır. Kırmızı çizgi y = x çizgisidir. Gördüğünüz gibi, her durumda normal, ortadaki iyi bir aralık üzerinde oldukça iyi bir yaklaşımdır - yaklaşık 5. ve 95. yüzdelik dilimlere (1.6-1.7ish) ve daha sonra bunun dışında test istatistiğinin gerçek dağılımı normalden daha hafif kuyruklu.

Bu nedenle lojistik durum için, z'yi kullanmak yerine t'yi kullanmak için herhangi bir argümanın bu temelde başarılı olma olasılığı düşük görünüyor, çünkü bu gibi simülasyonlar sonuçların daha hafif kuyruklu olma eğiliminde olduğunu düşündürüyor daha ağır kuyruklu yerine normal tarafı.

[Bununla birlikte, simülasyonlarıma dikkat etmek için bir uyarı olarak daha fazla güvenmemenizi öneriyorum - belki de IV'leriniz ve modelleriniz için tipik olan kendi durumlarınızı daha fazla temsil eden durumlar için kendinizinkini deneyin (tabii ki simüle etmeniz gerekir. null altında hangi dağılımın kullanılacağını görmek için null değerinin doğru olduğu durum). Sizin için nasıl ortaya çıktıklarını duymak isterim.]


1
Teşekkürler Glen. Bu, dağılımların daha ağır kuyruk yerine normalden daha hafif kuyruklu olmasıyla ilgili ilginç bir sonuçtur. Ardında da temel sezgi gibi görünüyor Yani fikri en azından bazı gerçekçi durumlar için, işaretin kapalıdır. t
Jake Westfall

4

Glen_b'nin zaten sunduklarını biraz genişletmek için birkaç ek simülasyon.

Bu simülasyonlarda, prediktörün düzgün bir dağılımı olduğu lojistik regresyonun eğimine baktım . Gerçek regresyon eğimi her zaman 0'dır. Toplam örnek boyutunu ( ) ve ikili yanıtın taban hızını değiştirdim ( )., N = 10 , 20 , 40 , 80 p = 0.5 , 0.731 , 0.881 , 0.952[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

Burada, gözlenen değerlerini (Wald istatistikleri) karşılık gelen dağılımının ( ) teorik miktarlarıyla karşılaştıran QQ grafikleri verilmiştir . Bunlar her parametre kombinasyonu için 1000 çalışmayı temel alır. Küçük örnek boyutları ve aşırı baz oranları (yani, şeklin sağ üst bölgesi) ile, yanıtın sadece tek bir değer aldığını, bu durumda ve değeri . t d f = N - 2 z = 0 p = 1ztdf=N2z=0p=1QQsim

Burada aynı dağılımlarına dayanan lojistik regresyon eğimleri için -değerlerinin dağılımlarını gösteren histogramlar verilmiştir . Bunlar her parametre kombinasyonu için 10.000 çalışmayı temel alır. -değerleri (toplam 20 depo) genişliği 0.05 kümeleri halinde gruplandırılır. Kesikli yatay çizgi% 5 işaretini, yani frekans = 500'ü gösterir. Tabii ki, null hipotez altındaki -değerlerinin dağılımının düzgün olmasını ister, yani tüm çubuklar kesikli çizginin etrafında olmalıdır. Şeklin sağ üst kısmındaki birçok dejenere vakayı tekrar fark edin. t p pptppHistSim

Sonuç , bu durumda dağılımlarının kullanımının , numune boyutu küçük olduğunda ve / veya baz oranı 0 veya 1'e yaklaştığında ciddi konservatif sonuçlara yol açabileceği görülmektedir.t


3

Workkinizde iyi iţler. Bill Gould, http://www.citeulike.org/user/harrelfe/article/13264166 adresinde aynı sonuçları standart sabit efektli ikili lojistik modelinde inceledi .

Kısacası, lojistik modelin bir hata terimi olmadığından, tahmin etmek için artık bir değişiklik yoktur, bu nedenle dağılımı uygulanmaz [en azından çoklu impütasyon ayarlamaları bağlamının dışında].t

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.