LSTM'ler için en iyi hangi optimizasyon yöntemleri işe yarıyor?


20

LSTM'leri denemek için theano kullanıyorum ve LSTM'ler için hangi optimizasyon yöntemlerinin (SGD, Adagrad, Adadelta, RMSprop, Adam, vb.) En iyi sonucu merak ediyordum? Bu konuda herhangi bir araştırma makalesi var mı?

Ayrıca, cevap LSTM için kullandığım uygulamanın türüne bağlı mı? Eğer öyleyse, metin sınıflandırma (metnin ilk kelime vektörlerine dönüştürüldüğü yer) için LSTM'ler kullanıyorum.

Son olarak, cevaplar RNN'ler için aynı mı yoksa farklı mı? Araştırma makaleleri veya kişisel bilgiler için herhangi bir işaretçi takdir edilecektir!

LSTM'ler oldukça güçlü görünüyor ve onları en iyi nasıl kullanacakları hakkında daha fazla bilgi edinmek istiyorum.

Yanıtlar:


7

İronik olarak, LSTM'ler için en iyi İyileştiricilerin kendileri LSTM'lerdir: https://arxiv.org/abs/1606.04474 Degrade iniş ile degrade iniş ile öğrenmeyi öğrenmek.

Temel fikir, orijinal ağın gradyanlarını birlikte öğrenmek ve öğretmek için bir sinir ağı (özellikle burada bir LSTM ağı) kullanmaktır. Buna meta öğrenme denir.

Juergen Schmidhuber tarafından 2000 yılında önerilmesine rağmen, bu yöntemin sadece son zamanlarda RNN eğitimindeki diğer optimize edicileri gerçekleştirdiği gösterilmiştir. (güzel bir grafik için orijinal belgeye bakın)


Bağlantının ne dediğini söyleyerek genişletebilir misiniz?
mdewey

zevk için değiştirildi. Orijinal soru "LSTM'ler için en iyi hangi optimizasyon yöntemleri işe yarıyor?" değil "LSTM'ler için en iyi optimizasyon yöntemleri nasıl çalışır" Ben bunu bırakın.
Anona112

4

Hangi senaryoda hangi optimizasyon yönteminin kullanılacağına dair genel bir kanıt yoktur. Bu yöntemlerin farklı senaryolar altında davranışlarında bazı analizler yapılmıştır, ancak hiçbir şey kesin değildir. Eğer bu konulara dalmak istiyorsanız o zaman şunu tavsiye ederim: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

En azından size bir cevap verebilmek için optimizasyon rutininizin yapılandırmasının gerçek rutinin kendisinden daha önemli olduğunu iddia ediyorum.

Ayrıca hangi tekniklerin kullanıldığını görmek için makalelere bakmanızı tavsiye ederim. Örneklerden Alex Graves, sekans oluşturma hakkındaki yayınlarının çoğunda RMSprop'u kullanmaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.