Egzersiz kaybı zamanla artar [çift]

4 tip diziyi sınıflandırmak için bir model (Tekrarlayan Sinir Ağı) eğitimi alıyorum. Eğitimimi yürütürken eğitim grubumdaki örneklerin% 90'ından fazlasını doğru bir şekilde sınıflandırdığım noktaya kadar eğitim kaybının azaldığını görüyorum. Ancak birkaç dönem sonra eğitim kaybının arttığını ve doğruluğumun düştüğünü fark ettim. Eğitim setinde performansın zamanla bozulmamasını beklemesini beklediğim için bu bana garip geliyor. Çapraz entropi kaybı kullanıyorum ve öğrenme hızım 0.0002.

Güncelleme: Öğrenme oranının çok yüksek olduğu ortaya çıktı. Düşük öğrenme hızı ile bu davranışı gözlemlemiyorum. Ancak yine de bu garip buluyorum. Bunun neden olduğuna dair iyi açıklamalar bekliyoruz

— dins2018
kaynak

Yanıtlar:

Bir CNN eğitimi yaparken benzer bir davranış vardı, çünkü hata hesaplaması için azalan öğrenme oranı ile degrade iniş kullandım. Yineleme sayısını önemli ölçüde artırdınız ve bu davranışın yeni düşük öğrenme oranı ile çok daha sonra gelip gelmediğini kontrol ettiniz mi?

— freundlicher
kaynak

Aslında evet, yeterince yüksek bir öğrenme oranı için bir daha asla yükselmeyeceği bir nokta geliyor. Bunun neden olduğuna dair teorik olarak sağlam bir açıklama arıyorum

— dins2018

Hangi optimizasyon algoritmasını kullanıyorsunuz?

— Freundlicher

Adam optimiser'ı lr = 0.00001, beta = (0.5, 0.999) ile kullanıyorum

— dins2018

Sanırım bu küçük öğrenme oranıyla yerel minimum değere o kadar yavaş yaklaşıyorsunuz ki, kayıp değerinin tekrar hafifçe arttığı nokta (minimum değeri aştığınız için) çok fazla yineleme gerektiriyor. Kayıp değerindeki bu artış Adem'e, yerel minimumun aşıldığı ve belirli sayıda yinelemenin yapıldığı andan, küçük bir sayı daha da küçük bir sayıya bölünür ve kayıp değeri patlar.

— Freundlicher

Beta1 = 0.9 ve beta2 = 0.999'u ayarlayabilirsiniz. Bu davranışa karşı çalışması gereken ortak değerlerdir.

— Freundlicher

Çünkü öğrenme oranı çok büyük olduğundan, kayıp fonksiyonunun minimumunu saptıracak ve bulamamaktadır. Belirli dönemlerden sonra öğrenme oranını azaltmak için bir zamanlayıcı kullanmak, sorunun çözülmesine yardımcı olacaktır

— Yawen Zheng
kaynak

Daha yüksek öğrenme hızları ile degradenin tersi yönde çok fazla hareket edersiniz ve yerel minimadan uzaklaşarak kaybı artırabilir. Öğrenme hızı zamanlama ve gradyan kırpma yardımcı olabilir.

— namuchan95
kaynak

CV'ye hoş geldiniz. Olumlu oy almak için daha eksiksiz bir cevap vermek en iyisidir , rehberlik için stats.stackexchange.com/help/how-to-answer adresine bakın .

— ReneBt