Veri kümesinin aksine minibatch'i kullanmanın en önemli avantajı, stokastik gradyan inişinin 1 temel fikrine dayanıyor .
Toplu degrade inişinde, tüm veri kümesinin üzerindeki degradeyi hesaplarsınız; bunun sonucunda potansiyel olarak büyük miktarda bilgi elde edilir. Bunu yapmak için çok fazla hafıza gerekir. Ancak asıl engel, toplu gradyan yörüngesinin sizi kötü bir noktaya (eyer noktası) sokmasıdır.
Öte yandan, SGD'de, veri kümesinin tek bir örneğinde hesaplanan gradyanı ekleyerek (eksi işareti) parametrelerinizi güncellersiniz . Rastgele bir veri noktasına dayandığından, çok gürültülüdür ve parti gradyanından uzakta bir yöne gidebilir. Bununla birlikte, gürültü, dışbükey olmayan optimizasyonda tam olarak istediğiniz şeydir, çünkü eyer noktalarından veya yerel minimumlardan kaçmanıza yardımcı olur ([2] 'deki Teorem 6). Dezavantajı, verimsiz olması ve iyi bir çözüm bulmak için veri setinin tamamında dolaşmanız gerekir.
Minibatch metodolojisi, her degrade güncellemesine göreceli olarak hızlı bir yakınsama elde ederken, yeterli gürültü sağlayan bir uzlaşmadır.
1 Bottou, L. (2010). Stokastik gradyan inişi ile büyük ölçekli makine öğrenmesi. COMPSTAT'2010 Bildirilerinde (s. 177-186). Physica-Verlag HD.
[2] Ge, R., Huang, F., Jin, C. ve Yuan, Y. (2015, Haziran). Tensör Ayrışması için Saddle Points-Online Stokastik Gradyandan Kaçış. COLT'de (s. 797-842).
DÜZENLE :
Bu yorumu Yann LeCun'un facebook sitesinde gördüm, bu soruya yeni bir bakış açısı getiriyor (üzgünüm fb ile nasıl bağlantı kuracağımı bilmiyorum).
Büyük minibatch'ler ile egzersiz yapmak sağlığa zararlı. Daha da önemlisi, test hatanız için kötü. Arkadaşlar, arkadaşlarının 32'den daha küçük minibüs kullanmasına izin vermezler. Kabul edelim: 2012'den bu yana bir kişiden daha büyük minibatch boyutlarına geçiş yapan tek kişi GPU'ların 32'den küçük parti büyüklükleri için verimsiz olmasıdır. Bu sadece donanımımızın berbat olduğu anlamına geliyor.
Birkaç gün önce arXiv'de yayınlanan (Nisan 2018) bu makaleyi okumayı hak etti.
Dominic Masters, Carlo Luschi, Derin Sinir Ağları için Küçük Yığın Eğitimini Yeniden Ziyaret , arXiv: 1804.07612v1
Özetten,
Büyük mini partilerin kullanımının mevcut bilgisayarlı paralelliğini arttırmasına karşın, küçük partili eğitimin genelleştirme performansı arttırdığı ...
En iyi performans, m = 2 ile m = 32 arasındaki mini parti büyüklükleri için tutarlı bir şekilde elde edilmiştir; bu, binlerce parti içindeki mini parti boyutlarının kullanılmasını savunan son çalışmalarla çelişmektedir.