In hafta 3 ders notları arasında Andrew Ng adlı Coursera Machine Learning sınıfının bir terim düzene bağlama uygulamak için maliyet fonksiyonu eklenir:
J+( θ ) = J( θ ) +λ2 mΣj = 1nθ2j
Ders notları şunları söylüyor:
Ayrıca tüm teta parametrelerimizi tek bir özetle düzenleyebiliriz:
m, inθ 12 m [Σi = 1m(hθ(x( i )) -y( i ))2+ λ Σj = 1nθ2j]
12 m daha sonra sinir ağlarının düzenlenme terimine uygulanır :
Düzenli lojistik regresyon için maliyet fonksiyonunun:
J( θ ) = -1mΣi = 1m[y( i ) günlük(hθ(x( i )) ) + ( 1 -y( i )) günlüğü ( 1 -hθ(x( i )) ) ] +λ2 mΣj = 1nθ2j
Sinir ağları için biraz daha karmaşık olacaktır:
J( Θ ) = -1mΣi = 1mΣk = 1K[y( i )kgünlük( (hΘ(x( i )))k) + ( 1 -y( i )k) günlüğü( 1 - (hΘ(x( i )))k) ]+λ2 mΣl = 1L - 1Σi = 1slΣj = 1sl + 1(Θ( l )j , ben)2
- Neden sabit bir buçuk burada kullanılıyor? Böylece türevinde iptal edilir mi?J'
- Neden eğitim örnekleri ile bölünme ? Eğitim örneklerinin miktarı şeyleri nasıl etkiler?m