tanh aktivasyon fonksiyonu vs sigmoid aktivasyon fonksiyonu


82

Tanh aktivasyon fonksiyonu:

tanh(x)=2σ(2x)1

Burada , sigmoid fonksiyonu, aşağıdaki gibi tanımlanır: .σ ( x ) = E xσ(x)

σ(x)=ex1+ex

Sorular:

  • Bu iki etkinleştirme işlevinin (tanh vs. sigma) kullanılması arasında gerçekten önemli mi?
  • Hangi fonksiyon hangi durumlarda daha iyidir?

12
tanh(x)=2σ(2x)1
Roman Shapovalov

Derin Sinir Ağları devam etti. Mevcut tercih RELU işlevidir.
Paul Nord

7
@PaulNord Hem tanh hem de sigmoidler hala RELU gibi diğer aktivasyonlarla birlikte kullanılır, ne yapmaya çalıştığınıza bağlıdır.
Tahlor,

Yanıtlar:


80

Evet, teknik nedenlerden dolayı önemlidir. Temel olarak optimizasyon için. LeCun ve ark. ( Verimli Backprop) okumaya değer .

Bu seçimin iki nedeni vardır (verilerinizi normalleştirdiğinizi varsayarsak, bu çok önemlidir):

  1. Daha güçlü gradyanlara sahip: veriler 0 civarında merkezlendiğinden, türevler daha yüksektir. Bunu görmek için, tanh fonksiyonunun türevini hesaplayın ve aralığının (çıkış değerleri) [0,1] olduğuna dikkat edin.

Tanh fonksiyonunun aralığı [-1,1] ve sigmoid fonksiyonun aralığı [0,1]

  1. Degradelerde önyargıdan kaçınma. Bu, makalede çok iyi açıklanmıştır ve bu sorunları anlamak için okumaya değer.

Önerdiğin belgede ufak bir şüphem var. 14. sayfada, "MLP ağırlıkları paylaştığında (örneğin: Konvolüsyonlu ağlar), Öğrenme hızı, ağırlığı paylaşan bağlantıların hiçbirinin karekökü ile orantılı olarak seçilmelidir." Lütfen nedenini açıklayabilir misiniz?
Satya

bu soru zaten burada cevaplandı istatistik.stackexchange.com/questions/47590/…
jpmuc

1
Bu çok genel bir sorudur. Uzun lafın kısası: Maliyet fonksiyonu sinir ağının ne yapması gerektiğini belirler: sınıflandırma veya regresyon ve nasıl. Christopher Bishop tarafından "Örüntü Tanıma için Sinir Ağları" nın bir kopyasını edinebilirseniz bu harika olurdu. Ayrıca Mitchell tarafından "Makine Öğrenmesi", daha temel bir düzeyde size iyi bir açıklama sunar.
jpmuc

1
Üzgünüm, Satya, genellikle hafta içi oldukça meşgulüm. Verilerinizi tam olarak nasıl normalleştirirsiniz? en.wikipedia.org/wiki/Whitening_transformation Sorununuzun ne olabileceğinden tam olarak emin değilim. En kolay yol ortalamayı çıkartmak ve sonra kovaryans matrisi ile eşitlemektir. Evtl. Yüksek frekanslar için bir parça eklemeniz gerekir (yukarıdaki referansta ZCA dönüşümü bölümüne bakınız)
jpmuc

1
Çok teşekkürler juampa. Bana gerçekten çok yardımcı oluyorsun. Önerilen okumalar çok iyi. Aslında iklim veri madenciliği üzerine bir proje yapıyorum. Giriş özelliklerimin% 50'si sıcaklık (200K-310K aralığında) ve giriş özelliklerimin% 50'si basınç değerleridir (aralık 50000pa ila 100000pa). Beyazlatma yapıyorum Pca'dan önce normalize etmene gerek var mı? Evetse, nasıl normalleştirmeliyim? Ortalamanınca çıkarmadan önce mi yoksa ortalamanın çıkarılmasından sonra normalleşmeli miyim? Farklı yöntemler kullanarak normalleştiriyorsam farklı sonuçlar alıyorum ...
satya

32

Çok teşekkürler @jpmuc! Cevabınızdan ilham alarak tanh fonksiyonunun türevini ve standart sigmoid fonksiyonunu ayrı ayrı hesapladım ve çizdim. Hepinizi paylaşmak istiyorum. İşte elimde ne var. Bu tanh fonksiyonunun bir türevidir. [-1,1] arasındaki giriş için, [0,42, 1] arasında türev var. görüntü tanımını buraya girin

Bu f (x) = 1 / (1 + exp (-x)) standart sigmoid fonksiyonunun türevidir. [0,1] arasındaki girişler için [0,20, 0,25] arasında türev var. görüntü tanımını buraya girin

Görünüşe göre tanh işlevi daha güçlü gradyanlar sağlar.


6
Buna bakmanın bir başka yolu σ (2x) 'in σ (x) ile aynı olmasıdır, ancak yatay bir gerdirmeli uygulanmış, ölçek faktörü 1/2 (yani aynı grafiktir, ancak her şey y eksenine sıkıştırılmıştır). Onu
ezdiğinde

2
Bunun neden bir fark yaratacağını anlamıyorum. Ölçek ve ezilme her düğüm için rasgele olacak ve (giriş ve çıkıştaki ofsetler ve ağırlıklarla birlikte) her ikisi de aynı sonuca yakınsayan evrensel tahminciler olacaktır.
Endolit
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.