Yapay sinir ağı gizli aktivasyon fonksiyonu seçimi


14

Başka bir yerde bir NN gizli katman aktivasyon fonksiyonu seçim kişinin ihtiyacına dayanmalıdır , yani -1 ila 1 aralığındaki değerlere ihtiyacınız varsa tanh kullanın ve 0 ila 1 aralığı için sigmoid kullanın okudum.

Sorum şu ki, kişinin neye ihtiyacı olduğunu nasıl bilebilir ? Giriş katmanının aralığına mı dayanıyor, örneğin, giriş katmanının tam değer aralığını kapsayabilecek işlevi mi kullanıyorsunuz, yoksa bir şekilde giriş katmanının dağılımını mı yansıtıyor (Gauss işlevi)? Yoksa ihtiyaç problemine / alana özgü mü ve bu seçimi yapabilmek için kişinin deneyimi / muhakemesi mi gerekiyor? Yoksa basitçe "en iyi çapraz onaylanmış asgari eğitim hatasını veren aracı mı kullanıyorsunuz?"


3
Bu argüman bs'dir, çünkü (tanh + 1) / 2 de 0-1'dir, "sigmoid" in sıklıkla tanh'ı kapsadığı kadar belirsiz bir terimdir.

Muhtemelen herhangi bir veri setinin 0-> 1 olarak normalleştirilebildiğini ve sigmoid aktivasyon kullanmak için yapılabileceğini belirtmek gerekir 1 + (1 / exp(-sum)). Yapımı ihtiyacını her veri setinde her iki denemeden anlamak çok zor. Gerek gerçek ilişki bağlıdır burada tarif gibi bir ikili veri seti daha hızlı ya da değil tüm verilen farklı etkinliklerinde öğreneceksiniz yani öğrenilmektedir.
Adrian Seeley

Yanıtlar:


12

LeCun bunu Verimli Backprop Bölüm 4.4'te tartışmaktadır . Motivasyon, girdiyi sıfır ortalamaya normalleştirme motivasyonuna benzer (Bölüm 4.3). Tanh aktivasyon fonksiyonunun ortalama çıktılarının sıfıra yakın olması, ortalama çıktısı pozitif olması gereken sigmoid'den daha olasıdır.


Çok bilgilendirici bir okuma!
babelproofreader

6

Sorunun ilk paragrafında belirtilen ihtiyaç , gizli katman etkinleştirme işlevi yerine çıktı katmanı etkinleştirme işlevi ile ilgilidir . 0 ile 1 arasında değişen çıktılara sahip olmak uygundur, çünkü olasılıkları doğrudan temsil edebilirler. Bununla birlikte, tanh çıkış katmanı aktivasyon fonksiyonlarına sahip bir ağ olan IIRC, lojistik çıkış katmanı aktivasyon fonksiyonuna sahip bir ağa önemsiz bir şekilde dönüştürülebilir, bu yüzden pratikte çok fazla önemli değildir.

Gizli ünitelerde lojistik aktivasyon fonksiyonundan ziyade tanh kullanılmasının nedeni, yani geri yayılım kullanarak bir ağırlıkta yapılan değişikliğin hem gizli katman nöronunun çıktısına hem de aktivasyon fonksiyonunun türevine bağlı olması, bu nedenle lojistik aktivasyonun kullanılması fonksiyonu aynı anda sıfıra gidebilir, bu da gizli katman biriminin donmasıyla sonuçlanabilir.

Kısacası, gizli katman etkinleştirme işlevleri için tanh kullanın, çıktıda istenen kısıtlamaları uygulamak için çıktı katmanı etkinleştirme işlevini seçin (ortak seçenekler: doğrusal - sınırlama yok, lojistik - çıktı 0 ile 1 arasında ve üstel - çıktı kesinlikle pozitif).


"... her ikisi de sıfıra ..." sahip değil. Çıktının sıfır olabileceğini görüyorum ama lojistik fonksiyonun türevinin tanh olarak sıfıra gitmesi nasıl mümkün.
erogol

tam olarak sıfıra gitmez, lojistik işlev için çok küçük olur. Tanh fonksiyonu için, çıktı sıfır olduğunda türev en büyüktür ve türev en küçük olduğunda çıktı en büyüktür. Orijinal makale 80'lerin sonunda yazılmıştır, detayları hatırlayıp hatırlayamayacağımı göreceğim.
Dikran Marsupial

2
Orijinal kağıdı bulamıyorum, ancak "Sinir Ağları - Ticaretin Püf Noktaları" kitabındaki bazı makaleler, gizli katman aktivasyonları ortalanmışsa ağlar daha iyi performans gösterdiğinden tanh'ın gizli katmanlarda daha iyi olduğunu gösteriyor (yani sıfır ortalama ).
Dikran Marsupial

2

1,7159xtanh(xx(2/3))-1+1[-1.5,+1.5]

Amacınız için sigmoid seçmek için genel konsept, kurala göre birini seçmek, çıktı değerleriniz puan aralığındadır, sigmoid fonksiyonunun ikinci türevini maksimum yapar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.