(Derin) sinir ağlarının birçok parametresi vardır . Bunun birkaç anlamı vardır:
Birincisi, sadece Hessian ve daha yüksek türevlerin hesaplanması olanaksız hale geldiğinden, üst düzey yöntemleri dışlar. Diğer alanlarda bu, SGD'ye yapılan herhangi bir değişiklikten daha iyi geçerli bir yaklaşım olabilir.
İkincisi, SGD harika olmasına rağmen , pratik olarak yavaş olma eğilimindedir. Bu geliştirilmiş SGD varyantları temel olarak daha hızlı eğitim sağlarken, SGD'nin bazı güzel özelliklerini de kaybedebilir . Diğer alanlarda, SGD eğitim süresi darboğaz olmayabilir, bu nedenle hızlandırılarak elde edilen iyileştirmeler göz ardı edilebilir.
Sinir ağlarının (derin) eğitimi dışbükey olmayan bir optimizasyondur ve bu alanda önemli dışbükey gevşeme sonuçlarının farkında değilim. Diğer alanlardan farklı olarak, sinir ağları, küresel olarak en uygun çözümlere odaklanmaz, bu da optimizasyon sırasında kayıp yüzeyinin özelliklerini ve geçişini iyileştirmek için daha fazla çaba harcanmasına yol açar.
Diğer alanlarda, dışbükey gevşemenin kullanılması ve küresel olarak optimal çözümlerin elde edilmesi, optimizasyon algoritması yerine ilginin merkezinde olabilir, çünkü sorun bir dışbükey problem olarak tanımlandığında, optimizasyon algoritmasının seçimi çözümün kalitesini artıramaz .