Parti normu neden öğrenilebilir ölçek ve kaymaya sahiptir?


13

Anladığım kadarıyla, parti normu tüm giriş özelliklerini bir katmana normal bir birim normal dağılımına normalleştirir, N(μ=0,σ=1). Ortalama ve varyansμ,σ2 mevcut mini parti için değerleri ölçülerek tahmin edilir.

Normalleştirmeden sonra girişler skaler değerlerle ölçeklenir ve kaydırılır:

x^i=γx^i+β

(Burada yanılıyorsam beni düzeltin - burası biraz emin olamayacağım yer.)

γ ve βskaler değerlerdir ve her parti normlu katman için bir çift vardır. Ağırlıklar ile birlikte backprop ve SGD kullanılarak öğrenilir.

Sorum şu: Bu parametreler gereksiz değil, çünkü girişler katmanın kendisindeki ağırlıklar ile herhangi bir şekilde ölçeklenip kaydırılabiliyor. Başka bir deyişle, eğer

y=Wx^+b

ve

x^=γx^+β

sonra

y=Wx^+b

nerede W=Wγ ve b=Wβ+b.

Peki onları ağa eklemenin anlamı, ölçeği ve vardiyayı zaten öğrenebiliyor? Yoksa tamamen yanlış anlıyor muyum?

Yanıtlar:


13

Derin Öğrenme Kitabı, Bölüm 8.7.1'de mükemmel bir cevap var :

Bir birimin ortalamasını ve standart sapmasını normalleştirmek, o birimi içeren sinir ağının ifade gücünü azaltabilir. Ağın ifade gücünü korumak için, gizli birim aktivasyonları H grubunun normalize edilmiş H yerine γH + β ile değiştirilmesi yaygındır. Γ ve The değişkenleri, yeni değişkenin herhangi bir anlamı olması ve standart sapma. İlk bakışta, bu işe yaramayabilir - neden ortalamayı 0'a ayarladık ve sonra herhangi bir keyfi değere β geri ayarlanmasına izin veren bir parametre sunduk?

Cevap, yeni parametrelendirmenin, girdinin eski parametrelendirme ile aynı işlev ailesini temsil edebileceğidir, ancak yeni parametrelendirmenin farklı öğrenme dinamikleri vardır. Eski parametrelendirmede, H'nin ortalaması H'nin altındaki katmanlar arasındaki parametreler arasındaki karmaşık bir etkileşim ile belirlendi. Yeni parametrelendirmede, γH + β ortalaması sadece β ile belirlenir. Degrade iniş ile yeni parametrelendirmeyi öğrenmek çok daha kolaydır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.