Genel olarak formun bir modelini almaya karar verdiğinizi varsayalım
P(y=1|X=x)=h(x;Θ)
bazı parametreler için . Sonra bunun olasılığını yazıyorsunuz, yaniΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
ki aynı
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Şimdi 'varsaymaya' karar verdiniz (model)
P(y=1|X=x)=σ(Θ0+Θ1x)
burada
σ(z)=1/(1+e−z)
bu yüzden sadece olasılık için formülü hesaplar ve , örneğin newton yöntemi veya herhangi bir degrade tabanlı yöntem bulmak için bir tür optimizasyon algoritması yaparsınız .argmaxΘL(Θ)
Bazen insanlar, lojistik regresyon yaparken, bir olasılığı en üst düzeye çıkarmadıklarını (yukarıda yaptığımız gibi) değil, bir kayıp fonksiyonunu en aza indirdiklerini söylüyorlar.
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
ancak dikkat edin .−log(L(Θ))=l(Θ)
Bu, Makine Öğreniminde genel bir örüntüdür: Pratik taraf (sezgisel bir modelin 'yanlış' olduğunu ölçen kayıp fonksiyonlarını en aza indirgemek) aslında 'teorik tarafa ( sembolüyle modellenerek, istatistiksel nicelikleri maksimuma çıkarmak) olasılıklar) ve aslında, olasılıklı olanlara benzemeyen birçok model (örneğin SVM'ler) olasılıksal bir bağlamda yeniden anlaşılabilir ve aslında olasılıkların maksimize edilmesidir.P