Bir buçuk yıl sonra, cevabıma geri döndüm, çünkü önceki cevabım yanlıştı.
Parti büyüklüğü öğrenmeyi önemli ölçüde etkiler. Ağınız üzerinden bir toplu iş başlattığınızda gerçekleşen şey, gradyanları ortalamalandırmanızdır. Konsept, eğer parti büyüklüğünüz yeterince büyükse, bu tam veri kümesinin gradyanının ne olacağı konusunda yeterince kararlı bir tahmin sağlayacaktır. Veri kümenizden örnekler alarak, hesaplama maliyetini önemli ölçüde düşürürken gradyanı tahmin edersiniz. Ne kadar düşük olursa, tahmininiz o kadar az doğru olacaktır, ancak bazı durumlarda bu gürültülü degradeler gerçekte yerel minimum noktalardan kurtulmaya yardımcı olabilir. Çok düşük olduğunda, verilerinizin gürültülü olması durumunda ağ ağırlıklarınız sadece atlayabilir ve öğrenemiyor olabilir veya çok yavaş bir şekilde birleşiyorsa, bu da toplam hesaplama süresini olumsuz olarak etkiler.
Gruplamanın başka bir avantajı da GPU hesaplaması için GPU'lar, eğer hesaplamanın bir kısmı aynıysa (örneğin, ağınızın aynı ağırlık matrisi üzerinde tekrarlanan matris çarpımı) sinir ağlarında gerçekleşen hesaplamaları paralel hale getirmede çok iyidir. Bu, 16 büyüklüğündeki parti büyüklüğünün 8 büyüklüğündeki parti büyüklüğünün iki katından daha az alacağı anlamına gelir.
Daha büyük parti boyutlarına ihtiyaç duymanız durumunda ancak GPU'nuza sığmayacaksa, küçük bir parti besleyebilir, degrade tahminlerini kaydedebilir ve bir veya daha fazla partiyi besleyebilir ve ardından bir ağırlık güncellemesi yapabilirsiniz. Bu yolla daha kararlı bir gradyan elde edersiniz, çünkü sanal parti boyutunuzu arttırırsınız.
YANLIŞ, ESKİ CEVAP: [[[Hayır, toplu iş boyutu, ortalama olarak öğrenmenin hızını etkiler, öğrenme kalitesini etkiler. Toplu işlerin de 2 gücüne sahip olmaları gerekmez, ancak bazı paketlerin yalnızca 2 güçlerine izin verdiğini anlıyorum, ancak mümkün olan en yüksek hızı elde etmek için toplu iş_ boyutunuzu GPU'nuzun hafızasına uyan en yüksek seviyeye getirmeye çalışmalısınız .]]]]