Yığın normalizasyon kağıdını okuyordum [1] ve bir örneklemin geçtiği bir bölüm vardı, normalleşmenin neden dikkatli yapılması gerektiğini göstermeye çalışıyordu. Dürüst olmak gerekirse, örneğin nasıl çalıştığını anlayamıyorum ve kağıtlarını olabildiğince iyi anlamak çok merak ediyorum. Önce burada alıntı yapmama izin verin:
Örneğin, öğrenilen yanlılığı b ekleyen ve eğitim verileri üzerinden hesaplanan etkinleştirme ortalamasını çıkararak sonucu normalleştiren u girişine sahip bir katman düşünün: burada , eğitim seti üzerindeki değer kümesidir ve . Bir gradyan iniş aşaması bağımlılığı göz ardı ederse E [X] ile b , o zaman güncellenir b ← b + \ Delta b> , burada \ frac {\ kısmi il} {\ kısmi \ şapka {x \ - Delta b \ propto }} . Sonra u + (b + \ Delta b) −E [u + (b + \ Delta b)] = u + b − E [u + b] . Böylece, güncelleme b ve daha sonra normalleşmedeki değişiklik, katmanın çıktısında herhangi bir değişikliğe veya sonuç olarak kaybına yol açmamıştır.
Sanırım mesajı anlıyorum, eğer kişi normalleştirmeyi düzgün yapmazsa, kötü olabilir. Ben nasıl örnek kullandıkları bunu nasıl bilmiyorum.
Birine onları şaşırtan şey konusunda daha spesifik olmadıklarında yardım etmenin zor olduğunun farkındayım, bu yüzden bir sonraki bölümde, açıklamaları hakkında kafa karıştırıcı olan şeyleri sağlayacağım.
Sanırım kafa karışıklığımın çoğu notasyonel olabilir, bu yüzden açıklığa kavuşacağım.
Birincisi, bence çok kafa karıştırıcı olan şeylerden biri, yazarların ağda bir birime sahip olmasının ne anlama geldiği ve bir aktivasyonun ne olduğudur. Genellikle, bir aktivasyonu şöyle düşünüyorum:
burada , ilk giriş katmanındaki ham özellik vektörleridir.
Ayrıca, sanırım beni şaşırtan ilk şeylerden biri (önceki sebepten dolayı) açıklamaya çalıştıkları senaryo gerçekten. Diyor ki:
egzersiz verileri üzerinden hesaplanan aktivasyon ortalamasını çıkararak sonucu normalleştirir: buradax=u+b
Söylemeye çalıştıkları şey , ileri geçişle hesaplandığı gibi aktivasyonlarını kullanmak yerine , ortalama aktivasyonu çıkararak bir çeşit "normalleştirme" gerçekleştirdiğini düşünüyorum. :
ve bunu geri yayılma algoritmasına geçirir. Ya da en azından benim için mantıklı olan şey bu.
Bununla ilgili olarak, dediklerini sanırım belki ? Onlar "giriş" dediği ve denklemi var çünkü tahmin ediyorum bu (sanırım onların sinir ağı için kimlik / doğrusal aktivasyon ünitesi kullanıyorlar?).
Beni daha da karıştırmak için, kısmi türevle orantılı bir şey olarak tanımlarlar , ancak kısmi türev, bana gerçekten tuhaf görünen ile hesaplanır . Genellikle, gradyan iniş kullanıldığında kısmi türevler ağın parametrelerine göredir. Bir ofset durumunda, düşünürdüm:
normalleştirilmiş aktivasyonlara göre türev almaktan daha mantıklıdır. Onların açısından türevini alırdım neden anlamaya çalışıyordum ve onlar yazarken onlar deltaları atıfta sanmıştım beri genellikle bu, delta denklemi olduğu için ön aktivasyonlara göre bir türevi olan back-prop algoritmasının tek kısmıdır:
Beni şaşırtan başka bir şey:
Sonra .
onlar güncellenen normalize aktivasyonunu hesaplamak için çalıştıklarını gerçekten yukarıdaki denklemde hesaplamak için çalışıyoruz ne olduğunu söylemek yok ama anlaması olur (ilk katman için?) sonra ile güncellenir ? Doğru denklemin olması gerektiğini düşündüğüm için puanlarını satın alıp almadığımdan emin değilim:b + Δ b
Hangi iptal etmez parametre değişikliği . Ancak, ne yaptıklarını gerçekten bilmiyorum, bu yüzden sadece tahmin ediyorum. Yazdıkları bu denklem tam olarak nedir?
Bunun doğru anlayış olup olmadığından emin değilim ama örneklerine biraz düşündüm. Örneklerinde doğrusal olmayan bir aktivasyon ünitesi yok (kimliği kullanıyor) ve sadece ilk giriş katmanından bahsediyorlar mı? Birçok ayrıntıyı bıraktıklarından ve gösterim çok açık olmadığından, tam olarak ne hakkında konuştuklarını çıkaramam. Birisi bu örneği her katmanda neler olup bittiğini ifade eden gösterimle nasıl ifade edeceğini biliyor mu? Birisi bu örnekle neler olup bittiğini anlıyor ve bilgeliğini benimle paylaşmak istiyor mu?
[1]: Ioffe S. ve Szegedy C. (2015),
"Parti Normalizasyonu: İç Değişken Değişimi Azaltarak Derin Ağ Eğitimini Hızlandırma",
32. Uluslararası Makine Öğrenimi Konferansı Bildirileri , Lille, Fransa, 2015.
Makine Öğrenimi Dergisi Araştırma: W&CP cilt 37