Coursera Machine Learning Course için Düzenli Doğrusal Regresyon Maliyet Fonksiyonunun Türetilmesi


13

Andrew Ng'in "Machine Learning" kursunu birkaç ay önce Coursera üzerinden aldım, matematik / türevlerin çoğuna dikkat etmedim ve bunun yerine uygulama ve pratikliğe odaklandım. O zamandan beri altta yatan teoriyi incelemeye başladım ve Prof. Ng'nin bazı derslerini tekrar gözden geçirdim. "Düzenli Doğrusal Regresyon" konulu konferansını okuyordum ve şu maliyet fonksiyonunu verdiğini gördüm:

J(θ)=12m[Σben=1m(hθ(x(ben))-y(ben))2+λΣj=1nθj2]

Ardından, bu maliyet fonksiyonu için aşağıdaki gradyanı verir:

θjJ(θ)=1m[Σben=1m(hθ(x(ben))-y(ben))xj(ben)-λθj]

Birinden diğerine nasıl geçtiği konusunda biraz kafam karıştı. Kendi türevimi yapmaya çalıştığımda şu sonucu elde ettim:

θjJ(θ)=1m[Σben=1m(hθ(x(ben))+y(ben))xj(ben)+λθj]

Fark, orijinal maliyet fonksiyonu ile Prof. Ng'nin formülündeki normalleştirme parametresi arasındaki 'artı' işaretidir, gradyan işlevinde bir 'eksi' işaretine dönüşürken sonuçta bu gerçekleşmez.

Sezgisel olarak neden negatif olduğunu anlıyorum: theta parametresini gradyan figürüyle düşürüyoruz ve normalleştirme parametresinin aşırı sığmayı önlemek için parametreyi değiştirdiğimiz miktarı azaltmasını istiyoruz. Ben bu sezgiyi destekleyen kalkülüs üzerinde biraz sıkıştım.

Bilginize, güverteyi burada , 15 ve 16 numaralı slaytlarda bulabilirsiniz .


1
Sonuçta y ^ (i) öncesinde bir " + " var - bu bir yazım hatası mı?
Steve S

Yanıtlar:


12

J(θ)=12m[Σben=1m(hθ(x(ben))-y(ben))2+λΣj=1nθj2]

şimdi

θj(hθ(x(ben))-y(ben))2=2[(hθ(x(ben))-y(ben))θj{hθ(x(ben))}]

Doğrusal bir modelde (bahsettiğiniz sayfalarda tartışılmaktadır),θj(hθ(x(ben))=[x(ben)]j

θjλΣj=1nθ2=2λθj

Yani doğrusal durum için

θjJ(θ)=1m[Σben=1m(hθ(x(ben))-y(ben))xj(ben)+λθj]

Belki de sen ve Andrew'un yazım hataları olabilir. Üçümüzden en az ikisi öyle görünüyor.


doğrulandı, Andrew'un notundaki bir yazım hatası, + işareti olmalı. Prof θ (1-α (λ / m)) sezgisi de dahil olmak üzere her şeyi doğru bir şekilde açıklar, yani bu küçülme her defasında düzenli hale getirilmeden önce her zamanki parçayı çıkarır.
Gob00st


1

Aslında bence bu sadece bir yazım hatası.

16. slaytta maliyet fonksiyonunun türevini (normalleştirme terimiyle) tetaya göre yazar, ancak Gradient Descent algoritması bağlamındadır . Bu nedenle, bu türevi . Uyarı: İkinci satırda (slayt 16'nın) (yazdığınız gibi) vardır, çarpılır . Bununla birlikte, üçüncü satırda, ikinci satır doğruysa - negatif işaretler iptal edilmiş olsa bile , çarpılan terim hala negatiftir .-α-λθ-α

Mantıklı olmak?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.