Burada, çözümün kendi kendine yetmesi için gerekli tüm özellikleri ve kimlikleri türetiyorum, ancak bunun dışında bu türetme temiz ve kolaydır. Notasyonumuzu resmileştirelim ve kayıp fonksiyonunu biraz daha kompakt yazalım. Göz önünde m örnekleri { xben, yben} , öyle ki xben∈ Rd ve yben∈ R . İkili lojistik regresyon biz genellikle hipotez işlevi olduğunu hatırlayın hθ lojistik fonksiyon olsun. resmen
hθ( xben) = σ( ωTxben) = σ( zben) = 11 + e- zben,
burada ω ∈ Rd ve zi=ωTxi . Kayıp fonksiyonu (ki OP'lerin negatif bir işaretin eksik olduğuna inanıyorum) daha sonra şöyle tanımlanır:
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
Gelecekte başvurmak üzere burada türediğim lojistik fonksiyonun iki önemli özelliği vardır. İlk olarak, 1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) olduğuna dikkat edin .
Ayrıca şunu da unutmayın
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
Bileşenlere göre türev almak yerine, burada doğrudan vektörlerle çalışacağız ( burada vektörlerle türevleri inceleyebilirsiniz ). Kayıp fonksiyonu Hessian l(ω) ile verilir ∇⃗ 2l(ω) ama ilk geri çekme ∂z∂ω=xTω∂ω=xTve∂z∂ωT=∂ωTx∂ωT=x.
Let li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . Yukarıda elde ettiğimiz özellikleri ve zincir kuralını kullanma
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
Bunu göstermek artık önemsiz
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
vay!
Son adımımız Hessian'ı hesaplamak
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
İçin m örnekler elimizdeki ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . Bu sütun vektörleri bitiştirme eşdeğerdir xi∈Rd bir matris içine X boyutu d×m , öyle ki ∑mi=1xixTi=XXT . Skalar terimler diyagonal matris içinde bir araya getirilmiştirD şekildeDii=σ(zi)(1−σ(zi)) . Sonunda,
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
Daha hızlı bir yaklaşım, başlangıçtan itibaren tüm numuneler bir kerede düşünülerek ve bunun yerine matris türevleri ile çalışılarak elde edilebilir. Ek bir not olarak, bu formülasyonla l(ω) nin dışbükey olduğunu göstermek önemsizdir . Let δ herhangi bir vektör öyle ki δ∈Rd . Sonra
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
D>0∥δTX∥≥0Hl