Hangi LSTM katmanlarında bırakma?


11

LSTMBırakma ile çok katmanlı bir katman kullanmak , tüm Gizli katmanların yanı sıra Yoğun katmanların çıktısına bırakma yapılması önerilir mi? Hinton'un makalesinde (Bırakmayı önerdi), sadece Yoğun katmanlara Bırakmayı koydu, ancak gizli iç katmanlar kıvrımlıydı.

Açıkçası, kendi modelimi test edebilirim, ama bu konuda bir fikir birliği olup olmadığını merak ettim?


3
ilgileniyorsanız bu makalede tekrarlayan ağlarda bırakma konusunda iyi bir tartışma: arxiv.org/abs/1512.05287 Gal, Yarin ve Zoubin Ghahramani. "Tekrarlayan sinir ağlarında teorik olarak topraklanmış bir uygulama." Sinirsel bilgi işleme sistemlerindeki gelişmeler. 2016.
redhqs

2
@Media'nın aşağıda söylediklerini doğrulamak istiyor
BigBadMe

Yanıtlar:


12

LSTMBelirli ve açık bir nedenden ötürü hücrelerde okulu bırakmamayı tercih ederim . LSTMsuzun vadede iyidir, ancak onlar hakkında önemli bir şey, aynı anda birden fazla şeyi ezberlemede çok iyi olmamalarıdır. Bırakma mantığı, herhangi bir spesifik nörona bağımlı olmamak için nöronlara gürültü eklemek içindir. LSTMHücreler için bırakma ekleyerek unutulmaması gereken bir şeyi unutmak için bir şans var. Sonuç olarak, CNNsher zaman katmanlardan sonra yoğun katmanlarda bırakmayı tercih ederim LSTM.


1
Ne dediğini anlıyorum ve bu mantıklı, ama sonra, Keras veya Tensorflow'daki LSTM hücre uygulaması neden bir LSTM'nin olması gerektiğini düşecekse bırakma (ve tekrarlayan bırakma) belirtme yeteneği sağlıyor. fonksiyon?
BigBadMe

3
İçinde CNNs, evrişimsel tabakalardaki az sayıda ağırlık nedeniyle konveksiyon katmanlarında kullanılmaması tamamen kabul edilebilir. Öte LSTMsyandan, ağırlık sayısı az değildir. Ezberlenmesi gereken çok şey olduğu görevlerde bahsettiğim gibi, bırakmayı kullanmamaya çalışıyorum, ancak birçok bağımlılığınızın olmadığı fiiller gerginliği gibi, sanırım çok kötü değil. Bu arada, benim deneyimimdi. Farklı uygulama alanları için başka yanıtlar olabilir.
Medya

1
Her iki cevaptan da büyük açıklama! (+ 1)
Aditya

5

Tüm model tiplerinde kanıtlanabilecek bir fikir birliği yoktur.

Düşünme bırakmasıyla bunun (ve burada) uygulamak için ne kadar regularization biçimi olarak, hem de yerleşik modelin karmaşıklığı (bunun ne kadar büyük) üzerine, veri kümesi türüne ve büyüklüğüne bağlıdır doğal olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.