Minibatch boyutu büyüdükçe SGD'nin yakınsamasının aslında zorlaştığı / kötüleştiği gibi birçok tartışmadan benzer bir sonuç gördüm, örneğin bu makale ve bu cevap . Ayrıca, erken aşamada küçük öğrenme oranları veya parti boyutları gibi hileler kullanan insanların büyük parti boyutları ile bu zorluğu gidermek için duydum.
Ancak bir minibatch ortalama kaybı veri dağıtımı üzerinde beklenen kaybı bir yaklaşım olarak düşünülebilir gibi sezgisel görünüyor,
İşte açıklamaya çalışan bazı düşüncelerim (muhtemelen yanlış).
Modelin parametreleri birbirine çok bağlıdır, parti çok büyük olduğunda bir kerede çok fazla parametreyi etkileyecektir, böylece parametrelerin kararlı bir doğal bağımlılığa ulaşması zor mu? ( parti normalizasyon belgesinde belirtilen dahili değişken değişken problemi gibi )
Ya da hemen hemen tüm parametreler her yinelemeden sorumlu olduğunda, gereksiz örtülü kalıpları öğrenme eğilimi gösterirler ve bu nedenle modelin kapasitesini azaltır mı? (Diyelim ki basamak sınıflandırma problemleri için bazı desenler noktalardan, bazıları kenarlardan sorumlu olmalı, ancak bu olduğunda her desen tüm şekillerden sorumlu olmaya çalışır).
Yoksa, parti büyüklüğü eğitim setinin ölçeğine yaklaştığında, minibatchlar artık ilişkili minibatchlar için büyük bir olasılık olacağından, veri dağıtımından uzak görülemez mi?
Güncelleme
Benoit Sanchez'in cevabında belirtildiği gibi, önemli minibatchların bir güncellemeyi tamamlamak için daha fazla hesaplama gerektirmesi ve analizlerin çoğunun karşılaştırma için sabit miktarda eğitim dönemi kullanmasıdır.
Bununla birlikte, bu makale (Wilson ve Martinez, 2003), yeterli miktarda eğitim çağına rağmen, daha büyük bir parti boyutunun hala biraz dezavantajlı olduğunu göstermektedir. Genelde durum böyle mi?