ReLU neden diğer aktivasyon fonksiyonlarından daha iyidir?

Burada cevap, benzer sigmoidaktivasyon fonksiyonları olan ama sanırım Relubir dezavantaja sahip olan ve beklenen değeri olan yok olan ve patlayan gradyanları ifade eder . çıkışı için bir sınırlama yoktur Reluve bu nedenle beklenen değeri sıfır değildir. Popülerlik önce hatırlıyorum Reluo tanhmakine ziyade uzmanlar öğrenme arasında en popüler oldu sigmoid. Bunun nedeni, beklenen değerinin tanhsıfıra eşit olması ve daha derin katmanlarda öğrenmenin sinir ağında daha hızlı olmasına yardımcı olmasıdır. Relubu özelliğe sahip değil, ancak türev avantajını bir kenara bırakırsak neden bu kadar iyi çalışıyor. Dahası, türev de etkilenebilir. Çünkü aktivasyonlar (çıktıRelu) güncelleme kurallarının hesaplanmasında yer alır.

— medya
kaynak

ReLU ile birlikte bir çeşit normalizasyonun (örn. Parti normalizasyonu, tabaka normalizasyonu) olması yaygındır. Bu, çıkış aralığını ayarlar.

— ncasas

@ncasas Ama tipik CNNnormalleştirme çıktısı reluyaygın değil mi? En azından bunu hiç görmedim.

— Medya

Haklısınız, çok derin olmayan CNN'lerde, toplu normalizasyona sahip olmamak normaldir. Ağırlık başlangıç değerlerinin rolünü düşündünüz mü? (örn. Başlatma)

— ncasas

evet, aslında bir şekilde yok olma / patlatma gradyanlarını önlüyorlar, bazı iterasyonlardan sonra çıktılar büyüyor sanırım.

— Medya

ReLu'nun en büyük avantajı gerçekten de, sigmoid / tanh fonksiyonlarına ( Krizhevsky ve ark.nın kağıdı) kıyasla stokastik gradyan inişinin yakınsamasını büyük ölçüde hızlandıran gradyanının doymamış olmasıdır.

Ama tek avantaj bu değil. İşte ReLu aktivasyonlarının ve indüklenmiş regülasyonun seyreklik etkileri üzerine bir tartışma. Başka bir güzel özellik, pahalı operasyonlar (üslüler, vb.) İçeren tan / sigmoid nöronlara kıyasla, ReLU'nun aktivasyon matrisini sıfırda eşleştirerek uygulanabilmesidir.

Ancak modern sinir ağlarının büyük başarısının sadece ReLu'dan kaynaklandığına inanmıyorum . Xavier başlatma, bırakma ve (daha sonra) batchnorm gibi yeni başlatma teknikleri de çok önemli bir rol oynamıştır. Örneğin, ünlü AlexNet ReLu ve terk etti.

Sorunuzu cevaplamak için: ReLu ideal olmasa da çok güzel özelliklere sahiptir . Ancak, bu arada bahsettiğiniz sıfır merkezli olmayan sorunu çözen diğer harika tekniklerle birleştiğinde gerçekten kendini kanıtlıyor.

UPD: ReLu çıkışı aslında sıfır merkezli değildir ve NN performansına zarar verir. Ancak bu özel konu, aktivasyondan önce sinyali normalleştiren batchnorm gibi diğer düzenleyici tekniklerle ele alınabilir :

$x = Wu+ b$

— özdeyiş
kaynak

Bu kısmı vurgulamalıydım: ReLu'nun tek başına bu sorunu çözmediğini söylemeye çalışıyordum. ReLu çıktısının sıfır merkezli olmaması ve ağırlıklar düzenli olmadıkça NN performansına zarar vermesi haklısınız . Ancak doymuş gradyanlar NN'ye daha fazla zarar verir, bu nedenle ReLu'nun kitlesel olarak benimsenmesi dezavantajlarına rağmen bir adımdı.

— Maxim

ağırlıklar ile neyi düzenli kıldığını söyler misin lütfen? cevapta ve vurguladığınız şeyde.

— Medya

Cevabım bu konu hakkında bazı ayrıntılarla güncellendi

— Maxim

Biraz kafa karıştırıcı bulduğum şey, neden sadece kimlik işlevini kullanmıyorsunuz? Neg değerleri için 0'ın avantajı nedir?

— Alex

@Alex id doğrusal olmayan bir özellik değildir. NN'de sadece doğrusal katmanlara sahip olmakla eşdeğerdir. Bu soruya bakın - stackoverflow.com/q/46659525/712995

— Maxim