Şu anda, mini-toplu degrade inişinin bir eyer noktasında nasıl sıkışabileceğinden biraz şaşkınım.
Çözüm, bunu alamayacağım kadar önemsiz olabilir.
Her çağ bir yeni örnek almak ve maliyet fonksiyonu her parti, sadece statik yani, yeni bir parti dayalı yeni hatayı hesaplar hangi degrade da her bir mini seri için değiştirmek .. ama göre gerektiğini araçlarının bu should vanilya uygulaması eyer noktaları ile ilgili sorunlar var mı?
Sinir ağları için yaygın olan dışbükey olmayan hata fonksiyonlarını en aza indirmenin diğer bir önemli zorluğu, sayısız yetersiz yerel minimasında sıkışmaktan kaçınmaktır. Dauphin ve diğ. [19], zorluğun aslında yerel minimadan değil, eyer noktalarından, yani bir boyutun yukarı ve diğerinin aşağı eğildiği noktalardan kaynaklandığını iddia etmektedir. Bu eyer noktaları genellikle aynı hataya sahip bir plato ile çevrilidir, bu da gradyan tüm boyutlarda sıfıra yakın olduğu için SGD'nin kaçmasını zorlaştırır.
Özellikle SGD'nin yakınsamaya doğru dalgalandığı için eyer noktalarına karşı açık bir avantajı olacağı anlamına gelecektir ... Dalgalanmalar ve rastgele örnekleme ve her çağ için farklı olan maliyet fonksiyonu, tek bir tuzağa düşmemek için yeterli neden olmalıdır.
Tam toplu degrade için, hata fonksiyonu sabit olduğundan, eyer noktasında sıkışabileceği mantıklıdır.
Diğer iki kısımda biraz kafam karıştı.