ReLU'yu neden sinir ağlarında kullanıyoruz ve nasıl kullanıyoruz?


31

Neden rektifiye edilmiş lineer birimleri (ReLU) sinir ağlarıyla kullanıyoruz? Bu sinir ağını nasıl geliştirir?

Neden ReLU'nun bir aktivasyon işlevi olduğunu söylüyoruz? Sinir ağları için softmax aktivasyon fonksiyonu değil mi? Hem ReLU hem de softmax kullandığımızı tahmin ediyorum:

softmax çıkışlı nöron 1 ---->
nöron 2'nin girişindeki nöron 1 çıkışındaki ReLU ---> softmax çıkışlı nöron 2 -> ...

Böylece nöron 2'nin girişi temel olarak ReLU (softmax (x1)) olur. Bu doğru mu?

Yanıtlar:


36

f(x)=max(0,x).

ReLU'ların sinir ağlarını iyileştirmesinin bir yolu, eğitimi hızlandırmaktır. Gradyan hesaplaması çok basittir ( işaretine bağlı olarak 0 veya 1 ). Ayrıca, bir ReLU'nun hesaplamalı basamağı kolaydır: Herhangi bir negatif element 0.0'a ayarlanır - üstel, çarpma veya bölme işlemleri yoktur.x

Lojistik ve hiperbolik teğet ağlarının gradyanları, ReLU'nun pozitif kısmından daha küçüktür. Bu, pozitif bölüm eğitim ilerledikçe daha hızlı bir şekilde güncellendiği anlamına gelir. Ancak, bunun bir bedeli var. Sol taraftaki 0 ​​gradyanı, "ölü nöronlar" adı verilen ve gradyan güncellemesinin gelen değerleri bir ReLU'ya ayarladığı ve çıktının daima sıfır olacağı bir problemi vardır; ELU (veya Sızdıran ReLU veya PReLU vb.) gibi değiştirilmiş ReLU birimleri bunu iyileştirebilir.

ddxReLU(x)=1x>0 . Buna karşılık, bir sigmoid birimin gradyanı en çok ; Öte yandan, bileti daha girişler için 0'a yakın bir bölgede yana (yaklaşık olarak).0.25tanh0.25<ddxtanh(x)1x[1.31,1.31]


@ aginensky Sayfanın üstündeki Soru Sor düğmesini tıklatarak soru sorabilirsiniz.
Sycorax, Reinstate Monica

Bir soru sormak istediğime ya da bu sayfaya katıldığımı gösteren bir kanıt göremiyorum. Açıkçası ReLU'nun ne kadar iyi çalıştığına şaşırmıştım ama sorgulmayı bıraktım :).
aginensky

@ aginensky Yorumun ara dönemde kaldırıldığı anlaşılıyor.
Sycorax, Reinstate Monica

Yorum benim tarafımdan kaldırılmadı ya da bana bilgi verilmedi. Soruları cevaplamayı bıraktım ve sanırım bu da yorum yapmaktan bıktım anlamına geliyor.
aginensky

@ aginensky Bunun neden yorum yapmayı bırakmanıza neden olacağını bilmiyorum. Yorumlarınız ve ölçülmeyle ilgili herhangi bir sorunuz varsa, meta.stats.SE'de bir soru sorabilirsiniz.
Sycorax, Monica

4

Dikkat edilmesi gereken en önemli şey, ReLU'nun iddiasız olduğu. ReLU'nun olduğu göz önüne alındığında, herhangi bir sonlu kompozisyon için olduğunu görmek kolaydır . Bu özellik, derin sinir ağları için çok önemlidir, çünkü ağdaki her katman bir doğrusal olmayanlık uygulamaktadır. Şimdi, iki kez sigmoid ailesi işlevini aynı girişe tekrar tekrar 1-3 kez uygulayalım:ρ(x)=max(0,x)ρρρρ=ρ

görüntü tanımını buraya girin

Sigmoid fonksiyonunun, “kaybolan gradyan problemi” ile sonuçlanan girdilerini "ezmesi" ni hemen görebilirsiniz: türevler sıfıra yaklaşırken (tekrarlanan uygulamaların sayısı) sonsuzluğa yaklaşır.n


0

ReLU, x girişli maksimum fonksiyondur (x, 0). Daha sonra ReLU, x matrisindeki tüm negatif değerleri sıfıra ayarlar ve diğer tüm değerler sabit tutulur.

ReLU, evrişimden sonra hesaplanır ve bu nedenle tanh veya sigmoid gibi doğrusal olmayan bir aktivasyon işlevi görür.

Softmax, sinir ağının sonundaki bir sınıflandırıcıdır. Bu, çıktıları 0 ile 1 arasındaki değerlere göre düzenlemek için lojistik regresyondur (Alternatif bir SVM sınıflandırıcısıdır).

CNN Yönlendirme Geçişi örneğin: giriş-> conv-> ReLU-> Havuz-> conv-> ReLU-> Havuz-> FC-> softmax


8
Downvoting. Bu çok kötü bir cevap! Softmax bir sınıflandırıcı değil! Çıktıları [0,1] aralığına normalleştiren (ölçeklendiren) ve [1, 1] 'e kadar toplamlarını sağlayan bir fonksiyondur. Lojistik regresyon hiçbir şeyi "normalleştirmez"! "ReLU evrişimden sonra hesaplanır ve bu nedenle tanh veya sigmoid gibi doğrusal olmayan bir aktivasyon işlevi" cümlesidir. Bir fiil veya anlamsız.
Jan Kukacka,

1
Cevap o kadar da kötü değil. Fiilsiz cümle "Rev, evrişimden sonra hesaplanır ve IS bu nedenle tanh veya sigmoid gibi doğrusal olmayan bir aktivasyon işlevidir" olmalıdır. Softmax'ı bir sınıflandırıcı olarak düşünmek de anlamlıdır. Her sınıfa bir olasılık atayan olasılıklı bir sınıflandırıcı olarak görülebilir . Çıkışları [0,1] aralığına "normalleştirir" / "normalleştirir".
user118967

0

ReLU bir değişmez anahtardır. 1 voltluk bir elektrik anahtarı ile 1 volt verir, n volt açık olduğunda n volt verir. Sıfır değiştirmeye karar verdiğinizde Açık / Kapalı, ReLU ile tam olarak aynı grafiği verir. Birkaç ağırlıklı toplamın ağırlıklı toplamı (nokta ürün) hala doğrusal bir sistemdir. Belirli bir giriş için ReLU anahtarları ayrı ayrı açık veya kapalıdır. Bu, girdiden çıktıya kadar belirli bir doğrusal projeksiyonla sonuçlanır, çünkü çeşitli ağırlıklı toplam ağırlık ... toplamı anahtarlarla birbirine bağlanır. Belirli bir giriş ve belirli bir çıkış nöronu için, aslında tek bir etkili ağırlıklı toplama özetlenebilen ağırlıklı toplamların bir bileşik sistemi vardır. ReLU sıfıra geçiş yaptığından, girdideki kademeli değişiklikler için çıktıda ani süreksizlik yoktur.

FFT ve Walsh Hadamard dönüşümü gibi sayısal olarak verimli ağırlıklı toplam (nokta ürün) algoritmaları vardır. Bunları ReLUa dayalı bir sinir ağına dahil edememenizin ve hesaplama kazançlarından yararlanmanızın hiçbir nedeni yoktur. (örn. Sabit filtre bankası sinir ağları.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.