Daha hızlı veya daha düşük olmak göreceli bir terimdir ve neyle karşılaştırıldığı bağlamında anlaşılmalıdır. Bu nedenle, bunu anlamak için, önce degrade inişinin diğer aktivasyon fonksiyonu türleriyle nasıl çalıştığını düşünmeliyiz.
Örnek Kurulum
Bir numaralı gizli katmana sahip bir MLP düşünün .n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
burada aktivasyon fonksiyonudur.f
Tanh ve Sigmoid - Ufuk Degrade
Varsayalım Tanh veya Sigmoid aktivasyon fonksiyonudur. Bu fonksiyonların türevi herhangi bir için -1 ila 1 veya resmi olarak ile sınırlıdır .ff′(x)∈(−1,1)x
Bu, “gradyanla yok olma sorunu” olarak bilinen derin öğrenmede çok önemli bir soruna neden olur. wrt türevini ele . Zincir kuralı ile
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
ve herhangi bir ,
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(İlk terim arasındadır çünkü daha önce tartışıldığı gibi sınırlıdır ve de giriş değerini ezmek için arasındadır .)(−1,1)f′ai−2(−1,1)
Yani temel olarak her birinin (0, 1) arasında olduğu birçok terimin ürünüdür. ne kadar büyükse (ağ ne kadar derinse) o terimden o kadar gerekir ve bunun sonucunda katlanarak küçülür. Bu üstel ilişki nedeniyle, degrade hızla o kadar küçük olur ki etkili bir şekilde sıfır olarak kabul edebiliriz. Degradelerin sıfır olması sonucu hiçbir şey öğrenilemez, çünkü degrade iniş için güncelleme kuralımız bu degradeye dayanır.dfdW1ndfdW1
RELU ve Ölü Nöron
Relu yok olan gradyan problemiyle başa çıkmak için icat edilmiştir, çünkü a_i olduğunda türevi her zaman 1'dir, bu nedenle RELU olduğunda :
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
olduğunda her şey güzel ve iyi, ancak olduğunda işler dağılıyor , bu kez degrade sıfıra çok yakın değil, saf bir sıfır. Bir nöron oraya ulaştığında, geri dönme şansı yoktur. Bu yüzden bu "Ölü Nöron" problemi olarak bilinirx>0x<0
Sızdıran RELU ve ELU
Sızdıran RELU ve ELU, RELU sonrası doğal gelişmedir. Bunlar olduğunda 1'e eşit olan RELU'ya benzerler, ancak olduğunda sıfır türevlerden kaçınarak "ölü nöron" dan kaçınırlar .x>0x<1
İkisi arasındaki fark için orijinal kağıdı alıntılarım .
LReLU'lar ve PReLU'lar da negatif değerlere sahip olsalar da, gürültüye dayanıklı bir devre dışı bırakma durumu sağlamazlar. ELU'lar daha küçük girdilerle negatif bir değere doyurur ve böylece ileriye doğru yayılan varyasyonu ve bilgileri azaltır.
Sezgisel açıklama aşağıdaki gibidir. ELU'da, x yeterince küçük olduğunda, gradyan gerçekten küçük ve doymuş hale geldi (Tanh ve Sigmoid için olduğu gibi). Küçük gradyan, öğrenme algoritmasının doymuş nöronlarla etkileşimi düşünmeden diğer ağırlıkların ayarlanmasına odaklanabileceği anlamına gelir.
3-boyutlu bir alanda pürüzsüz bir yüzey olarak temsil edilebilecek derece 2 polinomunu düşünün. Yerel minimum değeri bulmak için, gradyan iniş algoritmasının hem x hem de y yönündeki dikliği dikkate alması gerekir. Degrade hem x yönünde hem de y yönünde negatifse, hangi yolun daha iyi olduğu net değildir. Yani arada bir yerde bir yol seçmek mantıklı. Peki ya x-yönünde her şeyin düz (sıfır degradeler) olduğunu bilersek, o zaman y-yönüne gitmek beyinsiz olur. Başka bir deyişle, arama alanı çok daha küçük hale gelir.
özel not
Derin öğrenmede, yeterli ampirik kanıt veya onu destekleyecek derinlemesine anlayış olmadan birçok iddia vardır. ELU'nun durumunda, bazı veri kümeleri için daha hızlı yakınsama ile sonuçlandığı doğru olsa da, öğrenme algoritmasını farklı bir veri kümesi için yerel maksimumda sıkıştıracağı da doğru olabilir. Henüz yeterince bilmiyoruz.