Lojistik regresyonların özellikleri


17

Bazı lojistik regresyonlarla çalışıyoruz ve ortalama tahmini olasılığın her zaman örnekteki orana eşit olduğunu fark ettik; yani, takılan değerlerin ortalaması numunenin ortalamasına eşittir.

Bu gösteriyi bulabileceğim biri bana nedenini açıklayabilir veya referans verebilir mi?


2
Bunun nedeni, lojistik regresyonun tam olarak bunu başarmaya çalışmasıdır: önceki olasılıklar da dahil olmak üzere veri dağılımının modellenmesi ("ortalamalar"). Bu davranış istenmeyen mi?
bayerj

1
@bayer Link işlevinin doğrusal olmayışı, bu fenomenin karakterizasyonunuzdan daha derin olduğunu gösterir. Gerçekten burada gösterilecek bir şey var.
whuber

Risk regresyonu için lojistik regresyon kullanıldığında bu özelliğe bazen büyük kalibrasyon denir.
julieth

Yanıtlar:


26

Gözlemlediğiniz davranış, lojistik regresyondaki "tipik" durumdur, ancak her zaman doğru değildir . Aynı zamanda çok daha genel bir yapıya sahiptir (aşağıya bakınız). Üç ayrı gerçeğin birleşmesinin sonucudur.

  1. Log-olasılıkların öngörücülerin doğrusal bir fonksiyonu olarak modellenmesi,
  2. Lojistik regresyon modelindeki katsayıların tahminlerini elde etmek için maksimum olasılığın kullanılması ve
  3. Modelde bir kesme noktasının yer alması.

Yukarıdakilerden herhangi biri yoksa, ortalama tahmini olasılıklar genellikle numunedeki oranlarla eşleşmez.

Bununla birlikte, (neredeyse) tüm istatistiksel yazılımlar, bu tür modeller için maksimum olabilirlik tahmini kullanır, bu nedenle, uygulamada, 1 ve 2 maddeleri esasen her zaman mevcuttur ve özel durumlar dışında genellikle 3. madde mevcuttur.

Bazı detaylar

Tipik lojistik regresyon çerçevesinde, olasılığı olan bağımsız binom çalışmalarının sonuçlarını . Let gözlemlenen tepkiler olabilir. O zaman toplam olasılık ve dolayısıyla günlük olabilirliği y i L = n i = 1 p y i i ( 1 - p i ) 1 - y i = n i = 1 exp ( y i log ( p i / ( 1 - p i ) ) + log ( 1 - p i ) )piyi

L=i=1npiyi(1pi)1yi=i=1nexp(yilog(pi/(1pi))+log(1pi)),
=i=1nyilog(pi/(1pi))+i=1nlog(1pi).

Şimdi, her gözlem için bir belirteçleri vektörünüz var ve yukarıdaki Gerçek 1'den, lojistik regresyon modeli bazı bilinmeyen parametre vektörleri için . Not : Bunu yeniden düzenleyerek, elde ederiz .xi

logpi1pi=βTxi,
βpi=1/(1+eβTxi)

Modele sığma olasılığının en üst düzeyde kullanılması (Gerçek 2), dikkate alınarak çözülmesi gereken bir dizi denklem verir . Gözlemleyin log-odds ve öngörücüler arasında varsayılan doğrusal ilişkiyi kullanarak. Bu, MLE'nin dönüşümler altında değişmez olduğu için MLE yi karşıladığı için bu durumda./β=0

β=iyixiixi1+exp(βTxi)=iyixiipixi,
iyixi=ip^ixi,
p^i=(1+exp(β^Txi))1

Eğer, Gerçek kullanma 3 bir bileşene sahip her için her zaman 1 olduğu , o ve pozitif tepkiler ampirik oranı eşleşecek şekilde uygun olasılıkların ortalaması.xijiiyixij=iyi=ip^i

Bir simülasyon

Bir müdahalenin dahil edilmesi önemlidir. Burada, gözlemlenen davranışın modelde herhangi bir kesinti olmadığında ortaya çıkmayabileceğini gösteren bir örnek verilmiştir .R

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Genel durum : Yukarıda belirtildiği gibi, ortalama tepkinin ortalama tahmini ortama eşit olması özelliği, kanonik bağlantı fonksiyonunu kullanarak ve kanonik bağlantı fonksiyonunu kullanarak genel olasılığa uygun genelleştirilmiş doğrusal modeller sınıfı için çok daha fazla genelliğe sahiptir. modeli.

Referanslar

İlişkili teori için bazı iyi referanslar şunlardır.

  1. A. Agresti (2002), Kategorik Veri Analizi , 2. Baskı, Wiley.
  2. McCullagh ve JA Nelder (1989), Genelleştirilmiş Doğrusal Modeller , 2. Baskı, Chapman & Hall. (Özgün yazarlardan genel yöntemlerin metni.)

4
+1 Bu gösteri (tüm GLM'lere genelleme yapmaya çalışmadan lojistik regresyon modeline özgü) Maddala'da (1983) Ekonometride Sınırlı Bağımlı ve Nitel Değişkenler , s. 25-26'da verilmiştir .
StasK

@StasK: Bildiğim ek referans için teşekkürler. Şerefe.
kardinal

@cardinal: Agresti'nin bunu tartıştığını hatırlamıyorum. McCullagh ve Nelder'de tartışıldı mı?
julieth
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.