@Dikran Marsupial'ın cevabı genişletiliyor ....
Anna Choromanska ve Yan LeCunn'ın NYU grubundaki meslektaşları bunu 2014 AISTATS "Çok Katmanlı Ağların Kayıp Yüzeyi" başlıklı makalesinde ele alıyor . Bazı deneylerle birlikte rastgele matris teorisini kullanarak şunları savunuyorlar:
Büyük boyutlu ağlar için, yerel minimaların çoğu eşdeğerdir ve bir test setinde benzer performans sağlar.
"Kötü" (yüksek değerli) yerel minimum bulma olasılığı, küçük boyutlu ağlar için sıfır değildir ve ağ boyutuyla hızla azalır.
Eğitim setinde (en iyi yerel olanlardan birinin aksine) küresel minimum değeri bulmak için mücadele etmek pratikte yararlı değildir ve aşırı sığmaya yol açabilir.
[Kağıdın 2. sayfasından]
Bu görüşe göre, küresel asgari değeri bulmak için ağır yaklaşımlar uygulamak için mükemmel bir neden yoktur. Bu zaman, yeni ağ topolojilerini, özelliklerini, veri kümelerini vb.
Bununla birlikte, birçok insan SGD'yi arttırmayı veya değiştirmeyi düşündü. Oldukça küçük ağlar için (çağdaş standartlara göre), bu gelişmiş metabilistikler Mavrovouniotis ve Yang'ın (2016) karınca kolonisi optimizasyonunun + backprop'un birçok kıyaslama veri setinde değiştirilmemiş backprop'u attığını gösteriyor (çok fazla olmasa da). Rere el al. (2015), bir CNN'yi eğitmek için simüle edilmiş tavlamayı kullanır ve başlangıçta doğrulama setinde daha iyi performans gösterdiğini bulur. Bununla birlikte, 10 dönemden sonra, performansta sadece çok küçük bir (ve önem açısından test edilmemiş) fark kalır. Dönem başına daha hızlı yakınsama avantajı, dönem başına önemli ölçüde daha büyük miktarda hesaplama süresi ile dengelenir, bu nedenle bu, taklit tavlama için açık bir kazanç değildir.
Bu buluşsal yöntemlerin ağı başlatma konusunda daha iyi bir iş çıkarmaları mümkündür ve doğru yola yönlendirildikten sonra herhangi bir optimize edici bunu yapacaktır. Sutskever ve diğ. (2013) Geoff Hinton'un grubundan 2013 ICML gazetelerinde böyle bir şey tartışıyorlar .