Gözlemlediğiniz davranış, lojistik regresyondaki "tipik" durumdur, ancak her zaman doğru değildir . Aynı zamanda çok daha genel bir yapıya sahiptir (aşağıya bakınız). Üç ayrı gerçeğin birleşmesinin sonucudur.
- Log-olasılıkların öngörücülerin doğrusal bir fonksiyonu olarak modellenmesi,
- Lojistik regresyon modelindeki katsayıların tahminlerini elde etmek için maksimum olasılığın kullanılması ve
- Modelde bir kesme noktasının yer alması.
Yukarıdakilerden herhangi biri yoksa, ortalama tahmini olasılıklar genellikle numunedeki oranlarla eşleşmez.
Bununla birlikte, (neredeyse) tüm istatistiksel yazılımlar, bu tür modeller için maksimum olabilirlik tahmini kullanır, bu nedenle, uygulamada, 1 ve 2 maddeleri esasen her zaman mevcuttur ve özel durumlar dışında genellikle 3. madde mevcuttur.
Bazı detaylar
Tipik lojistik regresyon çerçevesinde, olasılığı olan bağımsız binom çalışmalarının sonuçlarını . Let gözlemlenen tepkiler olabilir. O zaman toplam olasılık
ve dolayısıyla günlük olabilirliği
y i L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p i ) ) + log ( 1 - p i ) )piyi
L=∏i=1npyii(1−pi)1−yi=∏i=1nexp(yilog(pi/(1−pi))+log(1−pi)),
ℓ=∑i=1nyilog(pi/(1−pi))+∑i=1nlog(1−pi).
Şimdi, her gözlem için bir belirteçleri vektörünüz var ve yukarıdaki Gerçek 1'den, lojistik regresyon modeli
bazı bilinmeyen parametre vektörleri için . Not : Bunu yeniden düzenleyerek, elde ederiz .xi
logpi1−pi=βTxi,
βpi=1/(1+e−βTxi)
Modele sığma olasılığının en üst düzeyde kullanılması (Gerçek 2), dikkate alınarak çözülmesi gereken bir dizi denklem verir . Gözlemleyin
log-odds ve öngörücüler arasında varsayılan doğrusal ilişkiyi kullanarak. Bu,
MLE'nin dönüşümler altında değişmez olduğu için MLE
yi karşıladığı için bu durumda.∂ℓ/∂β=0
∂ℓ∂β=∑iyixi−∑ixi1+exp(−βTxi)=∑iyixi−∑ipixi,
∑iyixi=∑ip^ixi,
p^i=(1+exp(−β^Txi))−1
Eğer, Gerçek kullanma 3 bir bileşene sahip her için her zaman 1 olduğu , o ve pozitif tepkiler ampirik oranı eşleşecek şekilde uygun olasılıkların ortalaması.xiji∑iyixij=∑iyi=∑ip^i
Bir simülasyon
Bir müdahalenin dahil edilmesi önemlidir. Burada, gözlemlenen davranışın modelde herhangi bir kesinti olmadığında ortaya çıkmayabileceğini gösteren bir örnek verilmiştir .R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Genel durum : Yukarıda belirtildiği gibi, ortalama tepkinin ortalama tahmini ortama eşit olması özelliği, kanonik bağlantı fonksiyonunu kullanarak ve kanonik bağlantı fonksiyonunu kullanarak genel olasılığa uygun genelleştirilmiş doğrusal modeller sınıfı için çok daha fazla genelliğe sahiptir. modeli.
Referanslar
İlişkili teori için bazı iyi referanslar şunlardır.
- A. Agresti (2002), Kategorik Veri Analizi , 2. Baskı, Wiley.
- McCullagh ve JA Nelder (1989), Genelleştirilmiş Doğrusal Modeller , 2. Baskı, Chapman & Hall. (Özgün yazarlardan genel yöntemlerin metni.)