Stokastik degrade iniş yaparken minibatch boyutu seçimini inceleyen literatür var mı? Deneyimlerime göre, genellikle çapraz doğrulama veya değişen başparmak kuralları kullanılarak bulunan ampirik bir seçim gibi görünüyor.
Doğrulama hatası azaldıkça minibatch boyutunu yavaşça arttırmak iyi bir fikir mi? Bunun genelleme hatası üzerinde ne gibi etkileri olur? Son derece küçük bir minibatch kullanarak ve modelimi yüz binlerce kez güncelleyerek daha iyi miyim? Çok küçük ve toplu arasında dengeli bir sayı ile daha iyi olurdu?
Minibatch'umun boyutunu veri kümesinin boyutuyla veya veri kümesindeki beklenen özellik sayısıyla ölçeklendirmeli miyim?
Minibatch öğrenme programlarının uygulanması hakkında çok fazla sorum var. Ne yazık ki, okuduğum çoğu makale bu hiperparametreyi nasıl seçtiklerini gerçekten belirtmiyor. Yann LeCun gibi yazarlardan, özellikle de Tricks of the Trade koleksiyonlarından bazı başarılar elde ettim. Ancak, hala bu soruların tam olarak ele alındığını görmedim. Makaleler için herhangi bir tavsiyeniz veya özellikleri öğrenmeye çalışırken iyi minibatch boyutlarını belirlemek için hangi kriterleri kullanabileceğim konusunda tavsiyesi var mı?