Lojistik Regresyonu ve olasılığını anlama


12

Lojistik regresyonun parametre tahmini / eğitimi gerçekten nasıl çalışır? Şimdiye kadar sahip olduğum şeyi koymaya çalışacağım.

  1. Bir olasılık şeklinde lojistik fonksiyonun çıkış x değerine bağlı olarak y çıktısı:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Bir boyut için Odds olarak adlandırılan aşağıdaki gibi tanımlanır:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Şimdi logW_0 ve W_1 işlevlerini doğrusal biçimde almak için fonksiyon ekleniyor:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Şimdi problem kısmına (Büyük X y)
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    Neden y = 1 olasılığını iki kez düşündüğümüzü söyleyebilir miyiz? şu tarihten beri:
    P(y=0|x)=1P(y=1|x)

ve ω değerlerini nasıl elde edebilirim?

Yanıtlar:


10

Genel olarak formun bir modelini almaya karar verdiğinizi varsayalım

P(y=1|X=x)=h(x;Θ)

bazı parametreler için . Sonra bunun olasılığını yazıyorsunuz, yaniΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

ki aynı

L(Θ)=Πben{1,...,N-},yben=1P(y=1|x=x;Θ)Πben{1,...,N-},yben=0(1-P(y=1|x=x;Θ))

Şimdi 'varsaymaya' karar verdiniz (model)

P(y=1|X=x)=σ(Θ0+Θ1x)

burada

σ(z)=1/(1+e-z)

bu yüzden sadece olasılık için formülü hesaplar ve , örneğin newton yöntemi veya herhangi bir degrade tabanlı yöntem bulmak için bir tür optimizasyon algoritması yaparsınız .argmaxΘL(Θ)

Bazen insanlar, lojistik regresyon yaparken, bir olasılığı en üst düzeye çıkarmadıklarını (yukarıda yaptığımız gibi) değil, bir kayıp fonksiyonunu en aza indirdiklerini söylüyorlar.

l(Θ)=-Σben=1N-ybengünlük(P(Yben=1|X=x;Θ))+(1-yben)günlük(P(Yben=0|X=x;Θ))

ancak dikkat edin .-günlük(L(Θ))=l(Θ)

Bu, Makine Öğreniminde genel bir örüntüdür: Pratik taraf (sezgisel bir modelin 'yanlış' olduğunu ölçen kayıp fonksiyonlarını en aza indirgemek) aslında 'teorik tarafa ( sembolüyle modellenerek, istatistiksel nicelikleri maksimuma çıkarmak) olasılıklar) ve aslında, olasılıklı olanlara benzemeyen birçok model (örneğin SVM'ler) olasılıksal bir bağlamda yeniden anlaşılabilir ve aslında olasılıkların maksimize edilmesidir.P


@Werner Cevabınız için teşekkürler. Ama yine de biraz açıklığa ihtiyacım var . 1. L ( θ ) tanımında yeryüzünde 2 ne için kaldığını açıklayabilir misiniz, çünkü anladığım kadarıyla y i = 1 durumunda interessted'im . ve yardımınız için çok teşekkürler ω 1 ve ω 0 değerlerini nasıl alabilirsiniz ! ΠL(θ)yben=1ω1ω0
Motor

@Engine: Büyük 'pi' bir üründür ... büyük bir Sigma gibi bir toplamdır ... anlıyor musunuz veya bununla ilgili daha fazla açıklamaya mı ihtiyacınız var? İkinci soruda: f ( x ) = x 2 işlevini en aza indirgemek istediğimizi ve x = 3'ten başlayacağımızı ancak karmaşık olduğu için f'yi bilmediğimizi / ifade edemediğimizi / görselleştiremediğimizi varsayalım . Şimdi türevi f olan f ' = 2 x . İlginçtir ki eğer asgari x = 0Σf(x)=x2x=3fff=2xx=0sağa işaret eder ve eğer biz solda kalırsak sola işaret eder. Matematiksel olarak türev, 'en güçlü yükseliş' yönünü gösteriyor
Fabian Werner

@Engine daha fazla boyutta Eğer gradyanı ile türevi yerine, yani rastgele noktada başlamak ve hesaplamak gradyan f de x ve en üst düzeye çıkarmak için istediğiniz sonra bir sonraki nokta x 1 olduğu X 1 = x 0 + f ( x 0 ) . Daha sonra işlem f ( x 1 ) ve bir sonraki x isimli x 2 = x 1 + f ( x 1x0fxx1x1=x0+f(x0)f(x1)x vb. Buna gradyan yükselmesi / alçalması denir ve bir işlevi en üst düzeye çıkarmada en yaygın tekniktir. Şimdi birlikte bunu L ( İçeride ISTV melerin RWMAIWi'nin ) sizin notasyonu veya L ( ω ) bulmak için Q'dan maxeimizes Lx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner

@Engine: ile hiç ilgilenmiyorsunuz ! 'Verilerinizi en iyi açıklayan ' ω ile ilgileniyorsunuz . Gönderen thet ω aou 'kendisi için konuşmasını' modeli izin vermedi ve söz geri almak y = 1 ama her şeyden önce kurulum için bir model gerekiyor! Burada 'en iyi açıklar', 'en yüksek olasılığa sahip olmak' anlamına gelir, çünkü insanların ortaya çıkardığı şey budur (ve bence çok doğaldır) ... Bununla birlikte, başka ölçütler (farklı kayıp fonksiyonları vb.) kullanın! İki ürün biz modeli açıklamak istiyorum, çünkü vardır y = 1 sıra sıra y = 0 'iyiliği'y=1ωωy=1y=1 y=0
Fabian Werner

8

Olabilirlik fonksiyonunuz (4) iki bölümden oluşur: sadece numunenizde başarılı olan kişiler için başarı olasılığının ürünü ve sadece numunenizde sadece başarısızlık yaşayan kişiler için başarısızlık olasılığının ürünü. Her bireyin bir başarı ya da başarısızlık yaşadığı, ancak ikisinde birden olmadığı göz önüne alındığında, olasılık her bir birey için sadece bir kez görünecektir. Bu ne ve , y i = 0 ürün işaretleri altındaki ortalama.,yben=1,yben=0

Katsayılar, (1) yerine (4) konularak olasılık fonksiyonuna dahil edilmiştir. Bu şekilde olabilirlik fonksiyonu bir fonksiyonu olur . Maksimum olabilirlik noktası, olasılığı en üst düzeye çıkaracak ω ' yi bulmaktır .ωω


Cevabınız için çok teşekkürler, üzgünüm ama hala anlamıyorum. değil , ürünün tüm y'leri için y = 0 [gerçekleşme] olasılığı anlamına gelir. ve y_i = 1 için tam tersi. Ve yine de ω değerlerini nasıl bulabilirim , 2. türevi hesaplayarak? veya gradyan? yardımın için çok teşekkürler ! yben=0ω
Motor

" i = 1'den N'ye kadarolan kişiler için ürün, ancak yalnızca y = 1 ise, bu nedenle ilk bölüm yalnızca verilerinizde olayı yaşayan kişiler için geçerlidir. ikinci bölüm sadece olayı tecrübe etmeyen kişileri ifade ederΠben=1,y=1N-ben=1N-y=1
Maarten Buis

Olabilirlik fonksiyonunu en üst düzeye çıkarmak için birçok olası algoritma vardır. En yaygın olanı, Newton-Raphson yöntemi , aslında birinci ve ikinci türevlerin hesaplanmasını içerir.
Maarten Buis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.