Sinir ağlarında neden diğer meta-sezgisel yöntemlerden ziyade gradyan yöntemleri kullanılır?


20

Derin ve sığ sinir ağlarının eğitiminde, gradyan yöntemleri (örneğin, gradyan inişi, Nesterov, Newton-Raphson) neden diğer meta-sezgilerin aksine yaygın olarak kullanılmaktadır?

Meta-sezgisel olarak, yerel bir minimada sıkışmayı önlemek için geliştirilen benzetilmiş tavlama, karınca kolonisi optimizasyonu vb. Yöntemleri kastediyorum.


Yanıtlar:


13

@Dikran Marsupial'ın cevabı genişletiliyor ....

Anna Choromanska ve Yan LeCunn'ın NYU grubundaki meslektaşları bunu 2014 AISTATS "Çok Katmanlı Ağların Kayıp Yüzeyi" başlıklı makalesinde ele alıyor . Bazı deneylerle birlikte rastgele matris teorisini kullanarak şunları savunuyorlar:

  • Büyük boyutlu ağlar için, yerel minimaların çoğu eşdeğerdir ve bir test setinde benzer performans sağlar.

  • "Kötü" (yüksek değerli) yerel minimum bulma olasılığı, küçük boyutlu ağlar için sıfır değildir ve ağ boyutuyla hızla azalır.

  • Eğitim setinde (en iyi yerel olanlardan birinin aksine) küresel minimum değeri bulmak için mücadele etmek pratikte yararlı değildir ve aşırı sığmaya yol açabilir.

[Kağıdın 2. sayfasından]

Bu görüşe göre, küresel asgari değeri bulmak için ağır yaklaşımlar uygulamak için mükemmel bir neden yoktur. Bu zaman, yeni ağ topolojilerini, özelliklerini, veri kümelerini vb.

Bununla birlikte, birçok insan SGD'yi arttırmayı veya değiştirmeyi düşündü. Oldukça küçük ağlar için (çağdaş standartlara göre), bu gelişmiş metabilistikler Mavrovouniotis ve Yang'ın (2016) karınca kolonisi optimizasyonunun + backprop'un birçok kıyaslama veri setinde değiştirilmemiş backprop'u attığını gösteriyor (çok fazla olmasa da). Rere el al. (2015), bir CNN'yi eğitmek için simüle edilmiş tavlamayı kullanır ve başlangıçta doğrulama setinde daha iyi performans gösterdiğini bulur. Bununla birlikte, 10 dönemden sonra, performansta sadece çok küçük bir (ve önem açısından test edilmemiş) fark kalır. Dönem başına daha hızlı yakınsama avantajı, dönem başına önemli ölçüde daha büyük miktarda hesaplama süresi ile dengelenir, bu nedenle bu, taklit tavlama için açık bir kazanç değildir.

Bu buluşsal yöntemlerin ağı başlatma konusunda daha iyi bir iş çıkarmaları mümkündür ve doğru yola yönlendirildikten sonra herhangi bir optimize edici bunu yapacaktır. Sutskever ve diğ. (2013) Geoff Hinton'un grubundan 2013 ICML gazetelerinde böyle bir şey tartışıyorlar .


17

Yerel minima, genellikle önerildiği gibi sinir ağları ile ilgili bir sorun değildir. Yerel minimaların bazıları ağın simetrisinden kaynaklanmaktadır (yani gizli nöronlara izin verebilir ve işlevi terk edebilirsinizağın değişmedi. Gerekli olan tek şey küresel minimiden ziyade iyi bir yerel minimak bulmak. Sinirsel bir ağ gibi çok esnek bir modeli agresif bir şekilde optimize ettiği için, verilerin aşırı yüklenmesi için bir reçete olması muhtemeldir; yerel bir minima ile sonuçlanan gradyan iniş ile eğitilmiş bir genelleme performansı. Bu sezgisel optimizasyon yöntemleri kullanılıyorsa, modelin karmaşıklığını sınırlamak için bir düzenleme terimi eklemenizi tavsiye ederim.

... ya da alternatif olarak örneğin daha az sorun olması muhtemel bir çekirdek yöntemi ya da radyal tabanlı bir işlev modeli kullanın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.