Lojistik regresyonu ikili sonuç ve yordayıcı ile kullanmak mantıklı mı?


18

Bir ikili sonuç değişkeni {0,1} ve bir tahmin değişkeni {0,1} var. Düşüncelerim, diğer değişkenleri dahil etmediğim ve olasılık oranını hesaplamadığım sürece lojistik yapmanın mantıklı olmadığıdır.

Bir ikili öngörücü ile olasılık oranının olasılık oranına karşı hesaplanması yeterli olmaz mı?

Yanıtlar:


26

Bu durumda verilerinizi daraltabilirsiniz ; burada S i j , x = i ve y = j için i , j { 0 , 1 örnek sayısıdır } . Genel olarak n gözlem olduğunu varsayalım .

XY010S00S011S10S11
Sbenjx=beny=ji,j{0,1}n

Biz modeli uygun ise (burada g eden bağlantı fonksiyonu ise) bulacaksınız p 0 olduğu başarı oranı logit zaman x i = 0 ve p 0 + β 1 başarıları zaman oranının logit olanpi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xben=0β^0+β^1 . Diğer bir deyişle, β 0 = gr ( S 01xben=1 ve β 0+ β 1=gr(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Bunun olup olmadığını kontrol edelim R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Dolayısıyla lojistik regresyon katsayıları tam olarak tablodan gelen oranların dönüşümleridir.

Sonuç olarak, bir dizi Bernoulli rasgele değişkeninden gelen verilerimiz varsa, bu veri kümesini kesinlikle lojistik regresyon ile analiz edebiliyoruz, ancak sonuçta ortaya çıkan beklenmedik durum tablosunu doğrudan analiz etmekten farklı olmadığı ortaya çıkıyor.


Bunun neden çalıştığını teorik bir bakış açısıyla yorumlamak istiyorum. Lojistik bir gerilemeye uyduğumuzda, . Daha sonra ortalamayı x i cinsinden veya p i = g - 1 ( β 0 + β 1 x i ) sembollerinde doğrusal bir yordayıcı dönüşümü olarak modellemeye karar veririz . Bizim durumumuzda sadece iki benzersiz x i değerine sahibiz ve bu nedenle sadece iki benzersiz p değeri vardır.Yben|xben~Bern(pben)xbenpben=g-1(β0+β1xben)xben , diyelim ki p 0 ve p 1 . Bağımsızlık varsayımımız nedeniyle i : x i = 0 Y i = S 01Kutu ( n 0 , p 0 ) ve i : x i = 1 Y i = S 11Kutu ( n 1 , p 1 ) var . Dikkat edin kipbenp0p1

Σben:xben=0Yben=S01~Çöp Kutusu(n0,p0)
Σben:xben=1Yben=S11~Çöp Kutusu(n1,p1).
xbenn0n1

Bu, anlamına gelir

S01/n0=S01S00+S01pp0 ve S11/n1=S11S10+S11pp1.

Yben|xben=j~Bern(pj)Sj1~Çöp Kutusu(nj,pj)ancak her ikisi de aynı başarı olasılığına sahiptir. Bu olasılık tablosu oranlarının gözlem düzeyinde lojistik regresyon ile aynı şeyi tahmin etmesinin nedeni budur. Bu sadece tablo ile bir tesadüf değil: yaptığımız dağıtımsal varsayımların doğrudan bir sonucudur.


1

Birden fazla öngörücünüz varsa ve tüm öngörücüler ikili değişkenler olduğunda, Mantıksal Regresyon [1] kullanarak bir modele sığdırabilirsiniz ("Lojistik" değil "Mantık" olduğunu unutmayın). Öngörücüleriniz arasındaki etkileşim etkilerinin belirgin olduğuna inandığınızda faydalıdır. R'de ( LogicRegpaket) bir uygulama var .

[1] Ruczinski, I., Kooperberg, C. ve LeBlanc, M. (2003). Mantık gerilemesi. Hesaplamalı ve Grafik İstatistik Dergisi, 12 (3), 475-511.


1
Soru özellikle bir regresör ile ilgilidir, bu nedenle cevabınız yorum olarak daha iyi olacaktır.
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.