Yapay Sinir Ağları: kilo değişimi momentum ve kilo kaybı


41

Momentum , ardışık yinelemelere göre ağırlık değişimlerindeki dalgalanmaları azaltmak için kullanılır:α

D(a), bir hata fonksiyonuw- ağırlıklarının vektörüη- öğrenme oranı.

Δωben(t+1)=-ηEwben+αΔωben(t),
E(w)wη

Ağırlık azalması , ağırlık değişikliklerini cezalandırır:λ

Δωben(t+1)=-ηEwben-ληωben

Soru, geri yayılma sırasında her iki numarayı birleştirmenin mantıklı olup olmadığı ve bunun nasıl bir etkisi olacağıdır

Δωben(t+1)=-ηEwben+αΔωben(t)-ληωben

1
Ωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t) yerine ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t) demek mi istiyorsun?
hakunamatata

Yanıtlar:


48

Evet, her iki numarayı da kullanmak çok yaygın. Farklı sorunları çözerler ve birlikte iyi çalışabilirler.

Bunu düşünmenin bir yolu, ağırlık azalmasının optimize edilmiş fonksiyonu değiştirdiği , momentum ise aldığınız yolu optimum seviyeye getirdiğidir .

Ağırlık azalması, katsayılarınızı sıfıra doğru daraltarak, küçük büyüklük parametreleriyle yerel bir optimum bulmanızı sağlar. Bu, fazla giydirmekten kaçınmak için çok önemlidir (ancak ağırlıklar üzerindeki diğer kısıtlamalar da işe yarayabilir). Bir yan fayda olarak, nesnel işlevi daha dışbükey yaparak modelin optimize edilmesini kolaylaştırabilir.

Nesnel bir işleve sahip olduğunuzda, nasıl hareket edeceğinize karar vermelisiniz. Degradedeki en dik iniş en basit yaklaşımdır, ancak dalgalanmaların büyük bir problem olabileceği konusunda haklısınız. Momentum eklemek bu sorunu çözmenize yardımcı olur. Toplu güncellemelerle çalışıyorsanız (genellikle sinir ağları ile kötü bir fikirdir) Newton tipi adımlar başka bir seçenektir. Yeni "sıcak" yaklaşımlar Nesterov'un hızlandırılmış gradyanına ve "Hessian-Free" optimizasyonuna dayanıyor.

Ama ne olursa olsun bu güncelleme kurallarının hangi sen (ivme, Newton, vs.) kullanmak, hala hata fonksiyonu ile belirlenir aynı amaç fonksiyonu, birlikte çalışıyoruz (örneğin kare hatası) ve diğer kısıtlamalar (örneğin ağırlık çürüme) . Bunlardan hangisinin kullanılacağına karar verirken asıl soru, iyi bir ağırlık setine ne kadar çabuk gideceğinizdir.


“Amaç işlevi daha dışbükey hale getirerek modelin optimize edilmesini kolaylaştırabilir” - lütfen daha küçük ağırlıkların bunu nasıl mümkün kıldığını açıklayabilir misiniz?
Alex,

sbenn(x)birx2bir

Güzel cevap, teşekkürler. Peki ya Adam Doktoru? Ağırlık azalması ve momentum kombinasyonunun daha iyi performans göstermesi mi?
A. Piro,

Adem momentum gibidir, fakat ağırlık azalması gibi değildir; Amaç işlevinde nasıl gezintiğinizi etkiler, ancak amaç işlevinin kendisinde değil.
David J. Harris,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.