Bir sinir ağını eğitirken egzersiz / test hatalarında ani düşüşlere ne sebep olur?


18

Sinir ağı eğitimi sırasında bazı dönemlerde birkaç kez test / eğitim hatası grafikleri aniden gördüm ve bu performans sıçramalarına neyin sebep olduğunu merak ediyorum:

ResNet test hatası

Bu görüntü Kaiming He's Github'dan alınmıştır, ancak pek çok makalede benzer çizimler ortaya çıkmıştır.


İlgili bir makale: Smith ve ark. 2018 Öğrenme Oranını Azaltmayın
amip

Yanıtlar:


7

Öğrenme oranını değiştirdiler. Düşüşün tam olarak 30 ve 60 çağda olduğunu ve birileri tarafından manuel olarak ayarlandığını unutmayın.


Bölüm 3.4'te, hata yaylaları
xiawi

2

"Optimizasyon ortamı" nı düşünün. Örneğin, yalnızca iki ağırlığa sahip bir ağınız varsa, bu iki ağırlığın tüm kombinasyonlarını bir yüzeye çizebilirsiniz; burada her noktadaki yükseklik, maliyet işlevinizin bunu kullanırsanız döndürdüğü hata miktarını temsil eder (x, y ) iki ağırlığınız olarak koordine edin. En düşük hata seviyesini elde etmek için bu yüzeydeki en düşük noktaya geçmeye çalışıyorsunuz.
Sorun bazen, özellikle iki yerine milyonlarca parametreye sahip ağlarda yüzeyin oldukça çılgın hale gelebilmesidir. İlerlemenin yavaşladığı eyer noktalarında sıkışıp kalabilir ve sonra aniden aşağı doğru bir tepeye fırlatılır.
İşte bunu görselleştirmeye yardımcı olacak bir animasyon .
resim açıklamasını buraya girin

Bunun başka nedenleri de olabilir, ancak en çok duyduğunuz şey budur. Bir ağda doymuş aktivasyonlar alan bir grup ünite olabilir (veya relu durumunda, sadece çok az sayıda eğitim girişi tarafından etkinleştirilen bir ünite) ve bir ünite doygunluktan çıktıkça geri kalanını doygunluktan uzaklaştıran bir zincir reaksiyonu başlatır ve ağırlıklar aniden gradyan akışını artırır mı? Böyle bir şeye bakmadım ama başka birinin eklemek için başka nedenleri varsa ilgilenirim.


1
-1. Bu soruya cevap vermez veya en azından nasıl ve ne yazdığının neden alakalı olduğu açık değildir. Neden öğrenme oranını düşürmek eyerden bir puan alır?
amip

Animasyonun zaten doğru olduğu bile belli değil, çünkü SGD - tanım gereği - her yinelemede farklı bir optimizasyon yüzeyi görüyor. Bu grafikte, optimizasyon yüzeyi sabittir, bu yüzden SGD'yi burada nasıl göstermenin mümkün olduğu açık değildir. SGD "nokta", optimizasyon yüzeyinin tüm eğitim süreci boyunca sabitlendiği tam seri degrade iniş gibi davranır.
Josh

0

ResNet (Görüntü Tanıma için Derin Artık Öğrenme) belgesine başvurursanız, "Öğrenme oranı 0,1'den başlar ve hata platolarında 10'a bölünür". Bu nedenle, düşüşün nedeni öğrenme oranındaki güncellemedir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.