Anladığım kadarıyla, parti normu tüm giriş özelliklerini bir katmana normal bir birim normal dağılımına normalleştirir, . Ortalama ve varyans mevcut mini parti için değerleri ölçülerek tahmin edilir.
Normalleştirmeden sonra girişler skaler değerlerle ölçeklenir ve kaydırılır:
(Burada yanılıyorsam beni düzeltin - burası biraz emin olamayacağım yer.)
ve skaler değerlerdir ve her parti normlu katman için bir çift vardır. Ağırlıklar ile birlikte backprop ve SGD kullanılarak öğrenilir.
Sorum şu: Bu parametreler gereksiz değil, çünkü girişler katmanın kendisindeki ağırlıklar ile herhangi bir şekilde ölçeklenip kaydırılabiliyor. Başka bir deyişle, eğer
ve
sonra
nerede ve .
Peki onları ağa eklemenin anlamı, ölçeği ve vardiyayı zaten öğrenebiliyor? Yoksa tamamen yanlış anlıyor muyum?