L2 ile RNN Düzenlemesi öğrenmeyi durdurur

Dengesiz bir olayı tespit etmek için Çift Yönlü RNN kullanıyorum. Pozitif sınıf, negatif sınıftan 100 kat daha azdır. Düzenleme kullanımı olmamasına rağmen tren setinde% 100, doğrulama setinde% 30 doğruluk elde edebilirim. L2 regülasyonunu açtım ve sonuç, daha uzun öğrenme yerine tren setinde sadece% 30 doğruluk ve doğrulama setinde% 100 doğruluk.

Belki de verilerimin çok küçük olduğunu düşünüyordum, bu yüzden sadece deney için tren setini daha önce kullanmadığım test seti ile birleştirdim. Durum, şimdi yapmadığım l2 düzenini kullandığımla aynıydı. Tren + test ve onaylamada% 30 doğruluk elde ediyorum.

Kullanımda Bahsedilen deneylerde 128hidden ünite ve 80 timesteps Gizli ünite sayısını 256'ya yükselttiğimde,% 100 doğruluk elde etmek için yine de tren + test setine fazla uyuyabilirim, ancak doğrulama setinde hala sadece% 30.

Hiperparametreler için çok fazla seçenek denedim ve neredeyse sonuç yok. Belki de ağırlıklı çapraz entropi soruna neden oluyor, verilen deneylerde pozitif sınıftaki ağırlık 5'tir.

LSTM ve GRU hücrelerini denedim, fark yok.

En iyi sonuçları aldım. 256 gizli birim ile 2 gizli katman denedim, yaklaşık 3 gün hesaplama ve 8GB GPU bellek aldı. L2 normalleştirme açıkken ancak çok güçlü değilken tekrar fazla takmaya başlamadan önce yaklaşık% 40-50 doğruluk elde ettim.

Adam optimizer'ları kullanıyorum, diğerleri çok iyi çalışmadı. Sahip olduğum özellik yeterlidir, çünkü durum makinesini kullanırken% 90 doğruluk elde edebilirim. Bu durum makinesinde ana özellik, diğer özellik özelliklerine dayalı olarak toplanması ve eşleştirilmesidir ve değişken uzunluğu bazen özellik hakkında konuşan 10, bazen 20 zaman damgasıdır.

Bu durumda ne yapılacağı konusunda genel bir kılavuz var mı? Hiçbir şey bulamadım.

— Andrej Fogelton
kaynak

Bengio ve ark., " Tekrarlayan sinir ağlarını eğitmenin zorluğu üzerine ", L2 düzenlemesinin neden RNN performansını öldürebileceğine dair bir ipucu veriyor. Esasen, RNN hücrelerini düzenleyen L1 / L2, hücrelerin bilgiyi zaman içinde öğrenme ve tutma yeteneğini de tehlikeye atar.

Tekrarlayan ağırlıklarda L1 veya L2 cezası kullanmak, degradelerin patlamasına yardımcı olabilir. Ağırlıkların en küçük tekil değer olan küçük değerlere başlatıldığı varsayılarak $\lambda_1$ nın-nin $W_{rec}$ muhtemelen 1'den küçüktür. L1 / L2 terimi eğitim sırasında bunu sağlayabilir $\lambda_1$ 1'den küçük kalır ve bu rejimde degradeler patlayamaz. Bu yaklaşım, modeli başlangıçta tek noktadan çekiciyle sınırlar ve modele eklenen bilgilerin üstel olarak hızlı bir şekilde ölmesi. Bu, modelin jeneratör ağlarını öğrenmesini önler ve uzun süreli bellek izleri gösteremez.

— Sycorax: Monica'yı eski durumuna getirdi
kaynak