Lojistik Regresyon - Hata Terimi ve Dağılımı


31

Lojistik regresyonda (ve varsayılan dağılımı) bir hata teriminin bulunup bulunmadığı üzerine, çeşitli yerlerde okudum:

  1. hata terimi yok
  2. hata terimi binom dağılımına sahiptir (cevap değişkeninin dağılımına göre)
  3. Hata terimi lojistik bir dağılıma sahip

Birisi lütfen netleşebilir mi?


6
Ya da daha genel olarak gerçekten GLMs - - lojistik regresyon sayesinde gözlem açısından düşünmek, genellikle kullanışlı değil yi|x"ortalama + hata" olarak x . Koşullu dağılım açısından düşünmek daha iyidir. “Hata terimi yoktur” diyerek “bu anlamda düşünmenin faydası olmaz” demedi. Bu yüzden, 1 ya da 2 arasında bir seçim olduğunu söyleyemem, çünkü "yukarıdakilerin hiçbiri" demenin daha iyi olacağını söylerdim. Bununla birlikte, birinin "1" için tartışabileceği dereceye bakılmaksızın. veya "2.", yine de, "3." kesinlikle yanlıştır. Onu nerede gördün?
Glen_b -Regan Monica

1
@Glen_b: Biri (2) için tartışabilir mi? İnsanları söyleyeceklerini biliyorum ama sorgulandığı zaman asla savunmamasını.
Scortchi - Eski Monica

3
@Glen_b Üç ifadenin de doğru oldukları yapıcı yorumlar var. (3) en.wikipedia.org/wiki/Logistic_distribution#Applications ve en.wikipedia.org/wiki/Discrete_choice#Binary_Choice adresinde adreslenmiştir .
whuber

@ whuber: İyi düşünülmeyen cevap wrt (3) 'ü düzelttim; ama yine de (2) doğru olabileceği konusunda şaşkınlığa uğradım.
Scortchi - Eski Monica

2
@Scortchi (2) nin doğru olmasına rağmen, bir gözlem ile beklenti arasındaki farkın beklenti tarafından çevrilmiş Binom dağılımına sahip olduğunu söylersek , o zaman (önemsiz) doğru olur. (2) 'deki parantez içindeki ifade, bunun amaçlanan yorum olduğunu kesinlikle göstermektedir. Diğer yararlı "hata terimleri" gibi, çok tanımlanabilir olduğu Not Hosmer ve Lemeshow tarif edilmiştir ve sapma hata terimleri (ve uygun sakıncalarına maruz kalan kareleri yaklaşık orada var tartışılan , x, 2 dağılımları). χ2χ2
whuber

Yanıtlar:


25

Doğrusal regresyonda gözlemlerin, yordayıcı değerlerine koşullu ortalama bir parametreye sahip bir Gauss dağılımını takip ettiği varsayılmaktadır. Gözlemlerden ortalamayı çıkarırsanız, hatayı alırsınız. : ortalama sıfıra sahip bir Gauss dağılımı, & tahmin değerlerinden bağımsız - herhangi bir tahmin değeri kümesindeki hatalar aynı dağılımı izler.

Lojistik regresyon gözlemlerinde , tahmin değerlerine bağlı olan ortalama bir parametre (olasılık) olan bir Bernoulli dağılımını takip ettiği varsayılır . Yani ortalama belirleyen herhangi bir belirleyicisi değerleri için TT : orada sadece iki olası hatalardır 1 - π olasılığı ile meydana gelen tt , ve 0 - π olasılık ile ortaya çıkan 1 - tt . Diğer tahmini değerleri için hatalar olacaktır 1 - π ' olasılık ile ortaya çıkan tt 'y{0,1}π1-ππ0-π1-π1-π'π', & olasılıkla birlikte ortaya çıkan 1 - π 0-π'1-π' . Dolayısıyla, yordayıcı değerlerinden bağımsız olarak ortak bir hata dağılımı yoktur, bu yüzden insanlar "hata terimi yoktur" der (1).

"Hata terimi binom dağılımına sahiptir" (2) sadece dikkatsizliktir - "Gauss modellerinde Gauss hataları vardır, ergo binom modellerinde binom hataları var". (Veya @whuber'ın işaret ettiği gibi, "gözlem ile beklenti arasındaki farkın beklenti tarafından çevrilmiş binom dağılımına sahip olduğu" anlamına gelebilir.)

"Hata terimi bir lojistik dağılıma sahiptir" (3), bir lojistik dağılımın ardından hatalı bir gizli değişkenin bir eşik değeri aşıp aşmadığını gözlemlemek için modelden lojistik regresyonunun türetilmesinden kaynaklanmaktadır. Yani yukarıda tanımlanan aynı hata değil. (IMO'yu bu bağlamın dışında veya gizli değişkene açıkça atıfta bulunmadan söylemek garip bir şey olabilir.)

Eğer varsa † aynı olasılık vererek aynı belirleyici değerlerle gözlemleri tt her biri için, o zaman bunların toplamı Σ y olasılık ile bir binom dağılımını izler tt ve hayır. denemeler k . Düşünüldüğünde Σ y - k tt aynı sonuca hata potansiyel müşteriler gibi.kπΣyπkΣy-kπ


1
'Hata terimi yok' kısmına ilişkin basit bir örnek verebilir misiniz? Yazıldığı gibi anlamada zorluk çekiyorum.
17'de

@Scortchi Uygulamada model bazı eşiklerle kullanıldığında, davayı takip etmekte zorlanıyorum, 0.5 diyoruz. Sonra hata 1 olduğunu veya 0. Bu durumda parametre 1- sahip bir Bernoulli rasgele değişken olarak kabul edilebilir gerçek etiket 1 olduğunda? π
wabbit

17

Bu daha önce ele alındı. de öngörülen değerlere sahip olması ile sınırlandırılmış bir model , tahminlerin [ 0 , 1 ] dışına çıkmasına neden olacak ek bir hata terimine sahip olamaz . İkili bir lojistik modelin en basit örneğini düşünün - sadece bir kesişme içeren bir model. Bu, Bernoulli'nin tek örnekli problemine eşdeğerdir, genellikle (bu basit durumda) binom problemi olarak adlandırılır, çünkü (1) tüm bilgiler örneklem büyüklüğü ve olay sayısında bulunur veya (2) Bernoulli dağılımı özel bir durumdur. n = 1 ile binom dağılımının dağılımı[0,1][0,1]n=1. Bu durumda ham veriler ikili değerlerin bir dizi vardır ve her bilinmeyen parametresi olan bir Bernoulli dağılımı vardır olayın olasılığını temsil eder. Bernoulli dağılımında hata terimi yoktur, sadece bilinmeyen bir olasılık vardır. Lojistik model bir olasılık modelidir.θ


9

Bana göre, lojistik, doğrusal, poisson regresyonu vb. Sürekli veriler için normal, dikloram için Bernoulli, sayılar için Poisson, vb. Verilerimiz için olasılık dağılımını belirleyerek başlıyoruz.

g(μben)=α+xbenTβ

Doğrusal regresyon için, .g(μben)=μben

Lojistik regresyon için, .g(μben)=günlük(μben1-μben)

Poisson regresyonu için .g(μben)=günlük(μben)

Bir hata terimi yazmak konusunda düşünebilecek tek şey şunu belirtmek olacaktır:

burada D ( E i ) = 0 ve V , bir R ( e i ) = σ 2 ( μ i ) . Örneğin, lojistik regresyon için, σ 2 ( μ i ) = μ i ( 1 - μ i ) =yben=g-1(α+xbenTβ)+ebenE(eben)=0Vbirr(eben)=σ2(μben) . Ama, açıkça ifade edemez e ı yukarıda da belirtildiği gibi bir Bernoulli dağılımına sahiptir.σ2(μben)=μben(1-μben)=g-1(α+xbenTβ)(1-g-1(α+xbenTβ))eben

eben


0
  1. Hata yok. Ortalamayı modelliyoruz! Ortalama sadece gerçek bir sayıdır.
  2. Bu bana mantıklı gelmiyor.
  3. Yanıt değişkenini gizli bir değişken olarak düşünün. Hata teriminin normal olarak dağıtıldığını varsayarsanız, model bir probit model haline gelir. Hata teriminin dağılımının lojistik olduğunu varsayarsanız, model lojistik regresyondur.

2
Bunun bir olasılık modelini anlamasına nasıl yardımcı olduğunu göremiyorum. Olasılık modelleri göründüğünden daha basittir.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.