Mini partinin boyutunu seçmek için herhangi bir kural var mı?


21

Sinir ağlarını eğitirken, bir hiperparametre bir minibatch büyüklüğündedir. Ortak seçenekler mini seri başına 32, 64 ve 128 elementtir.

Mini partinin ne kadar büyük olması gerektiğine dair kurallar / yönergeler var mı? Eğitim üzerindeki etkisini araştıran yayınlar var mı?


Hafızaya yerleştirmekten başka?
Ehsan M. Kermani

Evet. Örneğin, "toplu iş boyutu ne kadar büyükse, o kadar iyi" (hafızaya sığdığı sürece) yazan bir yayın var mı?
Martin Thoma

@ EhsanM.Kermani Bence önemli. CIFAR-100 üzerinde birkaç çalışma yaptım ve toplu iş büyüklüğüne bağlı olarak farklı sonuçlar elde ediyorum (aşırı durma umarım bir sorun değil, erken durma ile)
Martin Thoma

3
Daha büyük hesaplamalar daha hızlı (verimli), daha küçük daha hızlı birleşir, daha iyi genelleme yapar; bakınız Stokastik Optimizasyon ve bu RNN çalışması için Verimli Mini-Toplu Eğitim . Probleminiz için ampirik olarak bulduğunuz tatlı bir nokta var.
Emre

2
Blei ve ark.'nın bu en anlayışlı makalesi çıktı: Yaklaşık Bayesci Çıkarım olarak Stokastik Gradyan İniş
Emre

Yanıtlar:


22

In Deep Öğrenim On Büyük Toplu Eğitimi: Genelleme Gap ve Sharp Minima intersting tabloların bir çift vardır:

Uygulamada, daha büyük bir parti kullanıldığında, genelleme kabiliyeti ile ölçülen modelin kalitesinde bir bozulma olduğu gözlemlenmiştir [...]

büyük parti metotları, eğitim ve test fonksiyonlarının keskin minimize edicilerine yakınlaşma eğilimindedir ve iyi bilindiği gibi, keskin minima daha zayıf genellemeye yol açar. n. Buna karşılık, küçük parti yöntemleri sürekli olarak düz minimize edicilere yakınsar ve deneylerimiz bunun degrade kestirimindeki doğal gürültüden kaynaklandığına dair yaygın olarak tutulan bir görüşü destekler.

Gönderen benim ustaları tez : mini parti boyutu etkilerden Dolayısıyla seçim:

  • Yakınsamaya kadar eğitim süresi : Tatlı bir yer var gibi görünüyor. Parti boyutu çok küçükse (örn. 8), bu süre artar. Parti boyutu çok büyükse, minimumdan daha yüksektir.
  • Dönem başına eğitim süresi : Daha büyük hesaplamalar daha hızlıdır (etkilidir)
  • Ortaya çıkan model kalitesi : Daha iyi genelleme nedeniyle daha düşük (?)

Hiper parametre etkileşimlerini not etmek önemlidir : Parti büyüklüğü diğer hiper parametrelerle etkileşime girebilir, en önemlisi öğrenme oranı. Bazı deneylerde bu etkileşim, sadece parti boyutunun model kalitesi üzerindeki etkisini izole etmeyi zorlaştırabilir. Bir diğer güçlü etkileşim ise düzenlileştirme için erken durmadır.

Ayrıca bakınız


@NeilSlater Yorumunuzu (şimdi topluluk wiki) yanıtıma eklemek ister misiniz?
Martin Thoma

Cevabı genel olarak seviyorum. Dahası , belirli bir örnekte çok küçük , devasa ve mini-parti olan şeylerle ilgili bir sayıya sahip olmaktan memnuniyet duyarım.
Yani S

@SoS mini-batch sadece bir terimdir. "Mini" belirli bir boyuta işaret etmez, ancak yalnızca 1'den fazla örnek ve toplam eğitim setinden daha az olduğu anlamına gelir. "Çok küçük" ü <8 olarak görüyorum (cevabı yeni düzenledim). Ayrıca bunun için duvar saati eğitim süresinde aşırı (5x'ten fazla) bir artış ölçtüm. Normal, 64 veya 128 gibi bir şeydir. "Büyük" ün ne olduğundan emin değilim; Bunun donanıma bağlı olabileceğini düşünüyorum.
Martin Thoma

Bu cevap, cevapladığından daha fazla soru sorar. Bu tatlı nokta nerede (belki bir grafik yardımcı olabilir)? Öğrenme oranı ve erken durma ile nasıl etkileşir?
xjcl

Cevap ağa ve veri kümesine bağlıdır. Bu nedenle, belirli sayılar vermek mantıklı değildir ve bu nedenle bir grafik yardımcı olmaz. Diğer hiperparametrelerle etkileşimler hakkında: Emin değilim. Deneyin ve sonuçlarınızı yayınlayın :-)
Martin Thoma
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.