In Deep Öğrenim On Büyük Toplu Eğitimi: Genelleme Gap ve Sharp Minima intersting tabloların bir çift vardır:
Uygulamada, daha büyük bir parti kullanıldığında, genelleme kabiliyeti ile ölçülen modelin kalitesinde bir bozulma olduğu gözlemlenmiştir [...]
büyük parti metotları, eğitim ve test fonksiyonlarının keskin minimize edicilerine yakınlaşma eğilimindedir ve iyi bilindiği gibi, keskin minima daha zayıf genellemeye yol açar. n. Buna karşılık, küçük parti yöntemleri sürekli olarak düz minimize edicilere yakınsar ve deneylerimiz bunun degrade kestirimindeki doğal gürültüden kaynaklandığına dair yaygın olarak tutulan bir görüşü destekler.
Gönderen benim ustaları tez : mini parti boyutu etkilerden Dolayısıyla seçim:
- Yakınsamaya kadar eğitim süresi : Tatlı bir yer var gibi görünüyor. Parti boyutu çok küçükse (örn. 8), bu süre artar. Parti boyutu çok büyükse, minimumdan daha yüksektir.
- Dönem başına eğitim süresi : Daha büyük hesaplamalar daha hızlıdır (etkilidir)
- Ortaya çıkan model kalitesi : Daha iyi genelleme nedeniyle daha düşük (?)
Hiper parametre etkileşimlerini not etmek önemlidir : Parti büyüklüğü diğer hiper parametrelerle etkileşime girebilir, en önemlisi öğrenme oranı. Bazı deneylerde bu etkileşim, sadece parti boyutunun model kalitesi üzerindeki etkisini izole etmeyi zorlaştırabilir. Bir diğer güçlü etkileşim ise düzenlileştirme için erken durmadır.
Ayrıca bakınız