Bu durumda verilerinizi
daraltabilirsiniz
; burada S i j , x = i ve y = j için i , j ∈ { 0 , 1 örnek sayısıdır } . Genel olarak n gözlem olduğunu varsayalım .
X∖Y010S00S101S01S11
Sben jx = iy=ji,j∈{0,1}n
Biz modeli uygun ise (burada g eden bağlantı fonksiyonu ise) bulacaksınız p 0 olduğu başarı oranı logit zaman x i = 0 ve p 0 + β 1 başarıları zaman oranının logit olanpi=g−1(xTiβ)=g−1(β0+β11xi=1)gβ^0xben= 0β^0+ β^1 . Diğer bir
deyişle, β 0 = gr ( S 01xben= 1
ve
β 0+ β 1=gr(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11S10+ S11) .
Bunun olup olmadığını kontrol edelim R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Dolayısıyla lojistik regresyon katsayıları tam olarak tablodan gelen oranların dönüşümleridir.
Sonuç olarak, bir dizi Bernoulli rasgele değişkeninden gelen verilerimiz varsa, bu veri kümesini kesinlikle lojistik regresyon ile analiz edebiliyoruz, ancak sonuçta ortaya çıkan beklenmedik durum tablosunu doğrudan analiz etmekten farklı olmadığı ortaya çıkıyor.
Bunun neden çalıştığını teorik bir bakış açısıyla yorumlamak istiyorum. Lojistik bir gerilemeye uyduğumuzda, . Daha sonra ortalamayı x i cinsinden veya p i = g - 1 ( β 0 + β 1 x i ) sembollerinde doğrusal bir yordayıcı dönüşümü olarak modellemeye karar veririz . Bizim durumumuzda sadece iki benzersiz x i değerine sahibiz ve bu nedenle sadece iki benzersiz p değeri vardır.Yben| xben~⊥Bern ( pben)xbenpben= g- 1( β0+ β1xben)xben , diyelim ki p 0 ve p 1 . Bağımsızlık varsayımımız nedeniyle
∑ i : x i = 0 Y i = S 01 ∼ Kutu ( n 0 , p 0 )
ve
∑ i : x i = 1 Y i = S 11 ∼ Kutu ( n 1 , p 1 ) var .
Dikkat edin kipbenp0p1
Σi : xben= 0Yben= S01∼ Kutu ( n0, p0)
Σi : xben= 1Yben= S11∼ Kutu ( n1, p1) .
xbenn0n1
Bu, anlamına gelir
S01/ n0= S01S00+ S01→pp0 ve S11/ n1= S11S10+ S11→pp1.
Yben| xben= j ∼ Bern ( pj)Sj 1∼ Kutu ( nj, pj)ancak her ikisi de aynı başarı olasılığına sahiptir. Bu olasılık tablosu oranlarının gözlem düzeyinde lojistik regresyon ile aynı şeyi tahmin etmesinin nedeni budur. Bu sadece tablo ile bir tesadüf değil: yaptığımız dağıtımsal varsayımların doğrudan bir sonucudur.