Evet, her iki numarayı da kullanmak çok yaygın. Farklı sorunları çözerler ve birlikte iyi çalışabilirler.
Bunu düşünmenin bir yolu, ağırlık azalmasının optimize edilmiş fonksiyonu değiştirdiği , momentum ise aldığınız yolu optimum seviyeye getirdiğidir .
Ağırlık azalması, katsayılarınızı sıfıra doğru daraltarak, küçük büyüklük parametreleriyle yerel bir optimum bulmanızı sağlar. Bu, fazla giydirmekten kaçınmak için çok önemlidir (ancak ağırlıklar üzerindeki diğer kısıtlamalar da işe yarayabilir). Bir yan fayda olarak, nesnel işlevi daha dışbükey yaparak modelin optimize edilmesini kolaylaştırabilir.
Nesnel bir işleve sahip olduğunuzda, nasıl hareket edeceğinize karar vermelisiniz. Degradedeki en dik iniş en basit yaklaşımdır, ancak dalgalanmaların büyük bir problem olabileceği konusunda haklısınız. Momentum eklemek bu sorunu çözmenize yardımcı olur. Toplu güncellemelerle çalışıyorsanız (genellikle sinir ağları ile kötü bir fikirdir) Newton tipi adımlar başka bir seçenektir. Yeni "sıcak" yaklaşımlar Nesterov'un hızlandırılmış gradyanına ve "Hessian-Free" optimizasyonuna dayanıyor.
Ama ne olursa olsun bu güncelleme kurallarının hangi sen (ivme, Newton, vs.) kullanmak, hala hata fonksiyonu ile belirlenir aynı amaç fonksiyonu, birlikte çalışıyoruz (örneğin kare hatası) ve diğer kısıtlamalar (örneğin ağırlık çürüme) . Bunlardan hangisinin kullanılacağına karar verirken asıl soru, iyi bir ağırlık setine ne kadar çabuk gideceğinizdir.