Pratikte “Saddle-Free Newton” iniş algoritması kullanılmıyor?

Son zamanlarda Yann Dauphin ve ark. Saddle-Free Newton adında ilginç bir iniş algoritması getirdikleri, yüksek boyutlu dışbükey olmayan optimizasyonda eyer noktası problemini tanımlama ve saldırı , bu da sinir ağı optimizasyonu için tam olarak uyarlanmış gibi görünür ve eyer noktalarında sıkışmaktan muzdarip olmamalıdır vanilya SGD gibi birinci dereceden yöntemler gibi.

Kağıt 2014 yılına dayanıyor, bu yüzden yepyeni bir şey değil, ancak "vahşi doğada" kullanıldığını görmedim. Bu yöntem neden kullanılmıyor? Hessian hesaplaması gerçek boyutlardaki problemler / ağlar için fazla yasaklayıcı mı? Bu algoritmanın muhtemelen bazı derin derin öğrenme çerçevelerinde kullanılabilecek bazı açık kaynak uygulamaları var mı?

Şubat 2019'u güncelleyin: şimdi bir uygulama var: https://github.com/dave-fernandes/SaddleFreeOptimizer )

optimization deep-learning gradient-descent

— Jan Kukacka
kaynak

Güzel soru, hiçbir şey bulamadım. Bununla birlikte, sözde kod çok basittir, bu yüzden kendiniz deneyebilirsiniz, bu durumda yazarların doktora tezlerinden birinde bazı yararlı uygulama ayrıntıları vardır (sayfa 103, papyrus.bib.umontreal.ca/xmlui/bitstream/handle / 1866/13710 /… )

— galoosh33

Aynı makaleye Uber Deep-Neuroevolution Blog gönderisinde de başvurdum. Link: eng.uber.com/deep-neuroevolution Yazara GitHub aracılığıyla çevrimiçi / paylaşılan uygulamaları olup olmadığını sorabilirsiniz.

— Cantren

İşte TensorFlow için bir uygulama: github.com/dave-fernandes/SaddleFreeOptimizer

— Dave F

Tahmin etmek zorunda kalsaydım, varsayımım, modelinizde milyonlarca parametre olduğunda Hessian'ı hesaplama + ters çevirmenin pratik olmadığı olurdu.

— Sycorax, Reinstate Monica'yı

Sorunuzu "bir uygulama var mı?" Bu, evet / hayır cevapları ve / veya bir yazılım isteği (ki burada konu dışı) gibi geliyor gibi görünüyor. Sorunuz 'neden daha fazla uygulama yapılmadığını açıklamakta ne gibi zorluklar var?' Şeklinde ele alınabilir mi?

— gung - Monica'yı eski

Daha iyi optimizasyon mutlaka daha iyi bir model anlamına gelmez. Sonunda önemsediğimiz, modelin ne kadar iyi genelleştirildiği ve eğitim setindeki performansın ne kadar iyi olduğu değil. Daha zengin optimizasyon teknikleri genellikle daha iyi performans gösterir ve eğitim setinde daha hızlı birleşir, ancak temel algoritmaların yanı sıra her zaman genellemez. Örneğin bu makale SGD'nin ADAM optimize edicisinden daha iyi genelleme yapabileceğini göstermektedir. Bu, bazı ikinci derece optimizasyon algoritmalarında da geçerli olabilir.

[Düzenle] Burada uygulanmadığı için ilk nokta kaldırıldı. Bayerj'e bunu işaret ettiği için teşekkürler.

— Suruş
kaynak

İkinci noktaya katılırken, ilki burada geçerli değil. Yazarlar sadece kuadratik karmaşıklık gerektirmeyen Krylov alt alanında optimizasyon yapmayı önermektedir.

— bayerj