Aktivasyon fonksiyonları olarak softplus yerine ReLU kullanmanın faydaları nelerdir?


21

Doğrultulmuş doğrusal birimlerin (ReLU), doğrusal ve hesaplanması daha hızlı oldukları için softplus birimlerinin yerini aldıkları sıklıkla belirtilir.

Softplus hala spariteyi indükleme avantajına sahip mi yoksa ReLU ile sınırlı mı?

Sormamın nedeni, ReLU'nun sıfır eğiminin olumsuz sonuçlarını merak etmem. Bu özellik, yeniden etkinleştirme olasılığını vermenin faydalı olabileceği birimleri sıfırda "yakalamaz" mı?


bunun cevabını hiç buldun mu?
Charlie Parker

Yanıtlar:


4

Sorunuza Derin Öğrenme kitabının Bölüm 6.3.3'ünde bir cevap buldum . (Goodfellow ve diğerleri, 2016):

Softplus kullanımı genellikle önerilmez. ... her yerde ayırt edilebilir olması ya da daha az doygunluktan dolayı doğrultucudan avantajlı olmasını bekleyebilir, ama ampirik olarak bunu yapmaz.

Bu iddiayı desteklemek için bir referans olarak, Deep Sparse Rectifier Neural Networks (Glorot ve diğerleri, 2011) belgesinden bahsediyorlar.


1
Bence "ama ampirik olarak gerekmiyor" hakkında daha fazla açıklamaya ihtiyacımız var.
nbro

2

ReLU'lar, özellikle yüksek öğrenme oranları altında, gerçekten kalıcı olarak kapatılabilir. Bu, her ikisi de neredeyse her yerde sıfır olmayan bir eğime sahip olan sızdıran ReLU ve ELU aktivasyonlarının ardındaki bir motivasyon.

Leaky ReLU, ReLU için olduğu gibi hesaplamak için çok hızlı bir parçalı doğrusal bir fonksiyondur. ELU, softmax ve ReLU'ya göre ortalama çıktının sıfıra yakın olması avantajına sahiptir ve bu da öğrenmeyi geliştirir.


"Hemen hemen her yerde" ne anlama geliyor?
nbro

1
"hemen hemen her yerde", "birkaç küçük nokta dışında" anlamına gelen teknik bir terimdir. Örneğin, sızdıran ReLU'nun x = 0'da tanımlanmış bir gradyanı yoktur.
Hugh Perkins
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.