Toplu normalizasyon (BN) kağıdını (1) okuyordum ve modelin doğruluğunu izlemek için hareketli ortalamalar kullanma ihtiyacını anlamadım ve bunun doğru bir şey olduğunu kabul etsem bile anlamıyorum tam olarak ne yaptıklarını.
Anladığım kadarıyla (ki bu benim yanlışım) makalede, modelin eğitimi bittikten sonra istatistiklerini mini parti yerine nüfus istatistiklerini kullandığından bahsediliyor. Tarafsız tahminlerin tartışılmasından sonra (bu bana teğet gibi geliyor ve neden bunun hakkında konuştuğunu anlamıyor) gider ve derler:
Bunun yerine hareketli ortalamaları kullanarak, modelin eğitilirken doğruluğunu izliyoruz.
Bu benim için kafa karıştırıcı olan kısım. Modelin doğruluğunu ve hangi veri kümesinin üzerinde olduğunu tahmin etmek için neden hareketli ortalamalar yapıyorlar?
Genellikle insanların modellerinin genellemesini tahmin etmek için yaptıkları, sadece modellerinin doğrulama hatasını izler (ve düzenli olarak gradyan inişlerini potansiyel olarak erken durdururlar). Ancak, parti normalleşmesinin tamamen farklı bir şey yaptığı görülüyor. Birisi neyi ve neden farklı bir şey yaptığını netleştirebilir mi?
1 : Ioffe S. ve Szegedy C. (2015),
"Parti Normalizasyonu: İç Ortak Değişimi Azaltarak Derin Ağ Eğitimini Hızlandırma",
32. Uluslararası Makine Öğrenimi Konferansı Bildirileri , Lille, Fransa, 2015.
Makine Öğrenimi Araştırmaları Dergisi: W&CP hacmi 37