L2 ile RNN Düzenlemesi öğrenmeyi durdurur


10

Dengesiz bir olayı tespit etmek için Çift Yönlü RNN kullanıyorum. Pozitif sınıf, negatif sınıftan 100 kat daha azdır. Düzenleme kullanımı olmamasına rağmen tren setinde% 100, doğrulama setinde% 30 doğruluk elde edebilirim. L2 regülasyonunu açtım ve sonuç, daha uzun öğrenme yerine tren setinde sadece% 30 doğruluk ve doğrulama setinde% 100 doğruluk.

Belki de verilerimin çok küçük olduğunu düşünüyordum, bu yüzden sadece deney için tren setini daha önce kullanmadığım test seti ile birleştirdim. Durum, şimdi yapmadığım l2 düzenini kullandığımla aynıydı. Tren + test ve onaylamada% 30 doğruluk elde ediyorum.

Kullanımda Bahsedilen deneylerde 128hidden ünite ve 80 timesteps Gizli ünite sayısını 256'ya yükselttiğimde,% 100 doğruluk elde etmek için yine de tren + test setine fazla uyuyabilirim, ancak doğrulama setinde hala sadece% 30.

Hiperparametreler için çok fazla seçenek denedim ve neredeyse sonuç yok. Belki de ağırlıklı çapraz entropi soruna neden oluyor, verilen deneylerde pozitif sınıftaki ağırlık 5'tir.

LSTM ve GRU hücrelerini denedim, fark yok.

En iyi sonuçları aldım. 256 gizli birim ile 2 gizli katman denedim, yaklaşık 3 gün hesaplama ve 8GB GPU bellek aldı. L2 normalleştirme açıkken ancak çok güçlü değilken tekrar fazla takmaya başlamadan önce yaklaşık% 40-50 doğruluk elde ettim.

Adam optimizer'ları kullanıyorum, diğerleri çok iyi çalışmadı. Sahip olduğum özellik yeterlidir, çünkü durum makinesini kullanırken% 90 doğruluk elde edebilirim. Bu durum makinesinde ana özellik, diğer özellik özelliklerine dayalı olarak toplanması ve eşleştirilmesidir ve değişken uzunluğu bazen özellik hakkında konuşan 10, bazen 20 zaman damgasıdır.

Bu durumda ne yapılacağı konusunda genel bir kılavuz var mı? Hiçbir şey bulamadım.

Yanıtlar:


11

Bengio ve ark., " Tekrarlayan sinir ağlarını eğitmenin zorluğu üzerine ", L2 düzenlemesinin neden RNN performansını öldürebileceğine dair bir ipucu veriyor. Esasen, RNN hücrelerini düzenleyen L1 / L2, hücrelerin bilgiyi zaman içinde öğrenme ve tutma yeteneğini de tehlikeye atar.

Tekrarlayan ağırlıklarda L1 veya L2 cezası kullanmak, degradelerin patlamasına yardımcı olabilir. Ağırlıkların en küçük tekil değer olan küçük değerlere başlatıldığı varsayılarakλ1 nın-nin Wrec muhtemelen 1'den küçüktür. L1 / L2 terimi eğitim sırasında bunu sağlayabilir λ11'den küçük kalır ve bu rejimde degradeler patlayamaz. Bu yaklaşım, modeli başlangıçta tek noktadan çekiciyle sınırlar ve modele eklenen bilgilerin üstel olarak hızlı bir şekilde ölmesi. Bu, modelin jeneratör ağlarını öğrenmesini önler ve uzun süreli bellek izleri gösteremez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.