Lojistik regresyonun arkasındaki sezgi


25

Son zamanlarda makine öğrenimi görmeye başladım, ancak lojistik regresyonun ardındaki sezgiyi anlamadım .

Aşağıda anladığım lojistik regresyon ile ilgili gerçekler var.

  1. Hipotezin temeli olarak sigmoid fonksiyonunu kullanıyoruz . O yüzden anlıyorum bir doğru seçim bu kadar ancak neden sadece anlamıyorum seçim. Hipotez, uygun çıkışın olması olasılığını temsil eder , bu nedenle fonksiyonumuzun alanı olmalıdır , bu burada yararlı ve uygun bulduğum sigmoid fonksiyonunun tek özelliğidir, ancak birçok fonksiyon bu özelliği yerine getirir. Ek olarak, sigmoid işlevi biçiminde bir türevi vardır , ancak bu özel formun lojistik regresyondaki faydasını göremiyorum.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )1[0,1]f(x)(1-f(x))

    Soru : sigmoid işlevi hakkında bu kadar özel olan ve neden etki alanı ile başka bir işlevi kullanamıyoruz ?[0,1]

  2. Maliyet işlevi, eğer ise iki parametreden oluşur: , . Aynısı yukarıdaki gibi, neden doğru olduğunu anlıyorum, ancak neden tek biçim bu? Örneğin, nedenmaliyet fonksiyonu için iyi bir seçim olabilir mi?COst(hθ(x),y)=-günlük(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    Soru : Yukarıdaki maliyet fonksiyonu formunda özel olan nedir; neden başka bir form kullanamıyoruz?

Lojistik regresyon anlayışınızı paylaşırsanız sevinirim.


5
Logit / logistic işlevi, yanıt binom olarak dağıtıldığında, regresyon modelleri için link işlevi olarak kullanılabilecek tek fonksiyon değildir . Bu noktaya gelince, cevabımı burada okumanıza yardımcı olabilir: logit ve probit modelleri arasındaki fark .
gung - Reinstate Monica

4
Buradaki cevabım: İkili verilerin regresyon modellemesi için her zaman en iyisi olan logit işlevi , farklı olasılıklar hakkında düşünmede yardımcı olabilir.
gung - Reinstate Monica

1
@AdamO aşağıda mükemmel bir genel bakış sunar. Logit'in 'kanonik bağlantı işlevi' olduğu ne anlama geldiği hakkında daha ayrıntılı bilgi istiyorsanız, burada Momo'nun cevabını okumak isteyebilirsiniz: glm için link-function-ve-canonical-link-function-arasındaki fark .
gung - Reinstate Monica

1
A, bir "sigmoid" olduğu (1) in gösterilen örnek çalıştı değil de görünür kullanılan stats.stackexchange.com/a/70922 . Bu cevap (2) 'nin bir açıklamasını içerir. Başka bir örnek stats.stackexchange.com/questions/63978/… adresinde görünür . İstatistik.stackexchange.com/a/69873 adresinde daha çok sıradan (ancak daha az teknik) bir tartışma gerçekleşiyor ve konuya odaklanılıyor (2).
whuber

Yanıtlar:


7

Lojistik regresyon modeli, tahmin edicideki birim fark başına sonuç riskindeki nispi değişiklikleri karşılaştırmak için doğal parametre (log-odds oranı) kullanılarak maksimum olasılıktır. Bu, elbette, sonuç için binom olasılık olasılığını varsayar. Bu, lojistik regresyonun tutarlılık ve sağlamlık özelliklerinin doğrudan maksimum ihtimalden kaynaklandığı anlamına gelir: rastgele verilerde eksiklik, kök tutarlılık, denklemlerin tahmin edilmesinde çözümlerin varlığı ve benzersizliği. Bu, çözümlerin parametre uzayının sınırları üzerinde olmadığı varsayılmaktadır (log oranlarının olduğu yerlerde ). Lojistik regresyon maksimum olasılık olduğundan, kayıp fonksiyonu, denk optimizasyon problemleri olduğu için olasılıkla ilgilidir.±

Yarı değerli olma veya tahmin denklemleriyle (yarı parametrik çıkarım), varoluş, benzersizlik özellikleri hala geçerli olmakla birlikte, ortalama modelin tuttuğu varsayımının ilgili olmadığı ve çıkarım ve standart hataların model yanlışlığına bakılmaksızın tutarlı olduğu varsayılmaktadır. Bu durumda, bu sigmoidin doğru fonksiyon olup olmadığı değil, bize inanabileceğimiz bir trend veren ve genişletilebilir bir yorumu olan parametrelerle parametreleştirilen bir meseledir.

Bununla birlikte sigmoid, etrafındaki tek ikili modelleme işlevi değildir. En sık kontrastlı probit fonksiyonu benzer özelliklere sahiptir. Log-oran oranlarını tahmin etmiyor, ancak işlevsel olarak çok benzer görünüyorlar ve aynı şeye çok benzer yaklaşımlar verme eğiliminde . Bir de ortalama model işlevinde sınırlık özelliklerini kullanmak gerekmez. Basitçe, bir binom değişkenliği işlevine sahip bir log eğrisi kullanmak, göreceli risk regresyonu verir, binom değişkenliğine sahip bir kimlik bağı, ilave risk modelleri verir. Bütün bunlar kullanıcı tarafından belirlenir. Lojistik regresyonun popülaritesi, ne yazık ki, neden bu kadar yaygın kullanıldığı. Bununla birlikte, neden birçok ikili sonuç modelleme koşulunda kullanılmasının haklı olduğunu düşündüğüm nedenlerimi (belirttiğim gibi) sahibim.

Çıkarım dünyasında, nadir sonuçlar için, oran oranı kabaca "göreceli risk", yani "X + 1 ile X'i karşılaştıran sonuç riskinde yüzde göreceli değişim" olarak yorumlanabilir. Bu her zaman böyle değildir ve genel olarak, oran oranı böyle yorumlanamaz ve yorumlanmamalıdır. Bununla birlikte, bu parametrelerin yorumu vardır ve diğer araştırmacılara kolayca iletilebilir, makine öğrenenlerinin didaktik materyallerinde ne yazık ki eksik olan önemli bir noktadır.

Lojistik regresyon modeli ayrıca hiyerarşik modelleme gibi daha karmaşık yaklaşımların yanı sıra katlanarak artan rahatsızlık parametrelerine tutarlı ve sağlam olan karma modelleme ve koşullu olasılık yaklaşımları için kavramsal temeller sağlar. GLMM'ler ve şartlı lojistik regresyon, yüksek boyutlu istatistiklerde çok önemli kavramlardır.


1
Cevabınız için çok teşekkür ederim! Arka planda çok büyük bir eksiklik var gibi görünüyor.
user16168 29:13

McCullough ve Nelder'in Genelleştirilmiş Doğrusal Modeller kitabının daha istatistik bir bakış açısı için harika bir arka plan kaynağı olacağını düşünüyorum.
AdamO

Genel olarak, çok detaylı tanımlayıcı içerikli Makine öğreniminde hangi ders kitabını önerirsiniz?
user16168

Hastie tarafından İstatistiksel Öğrenme Öğeleri, Tibshirani, Friedman.
AdamO 30:13

2
@ user48956 Kayıp Dada, Little ve Rubin ile İstatistiksel Analiz 2. baskı. Eksik veriler kendiliğinden "temsil edilmez", fakat ihmal tarafından "ele alınır". Bu, lojistik regresyona özgü değildir: tüm istatistiksel modellerin kullandığı naif bir yaklaşımdır. Veriler dikdörtgen bir dizide biçimlendirildiğinde, eksik değerleri olan satırlar çıkarılır. Bu eksiksiz bir vaka analizi olarak bilinir. GLM'ler ve GLMMS, tam vaka analizlerinin genellikle tarafsız olduğu ve çok verimsiz olmadığı anlamında eksik verilere karşı dayanıklıdır.
AdamO

6

YXYYXYben=Xbenβ+εben

Y*YY*

Yben*=Xbenβ+εbenYben=0EğerYben*<0Yben=1EğerYben*>0
X

Y*XYY*

βεFP{Yben=1}=F(Xbenβ)

P{Yben=1}=1-F(-Xbenβ)

εF

F


Tarif ettiğiniz şey, lojistik regresyon değil, probit modelin motivasyonu.
AdamO

6
εben

Bu çok hassas bir varsayım gibi görünüyor ve test edilmesi zor. Bu tür hata dağılımları tutmadığında lojistik regresyonun motive edilebileceğini düşünüyorum.
AdamO

2
@AdamO, bununla birlikte lojistik gerilemeyi motive ediyorsanız, hataların lojistik dağılıma sahip olduğu eşikli doğrusal regresyon modeline hala matematiksel olarak eşdeğerdir. Bu varsayımın test edilmesi zor olabilir, ancak sorunu nasıl motive ettiğinize bakılmaksızın var olduğuna katılıyorum. Özgeçmişe (şu anda yerleştiremem) önceki bir cevabı hatırlıyorum; bir lojistik çalışmanın veya probit bir modelin "daha iyi uyuyor" olup olmadığını, gerçek veri üreten modelden bağımsız olarak temelde bozuk para olup olmadığını söylemeye çalışan bir simülasyon çalışması ile gösterdim. . Lojistiğin uygun yorumlama nedeniyle daha popüler olduğundan şüpheleniyorum.
Makro

2
P(Yben=1)=exp(Xbenβ)1+exp(Xbenβ)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.