sinir ağında tanh ve sigmoid


16

Bu konuda hala hızlanmaya çalıştığım için şimdiden özür dilerim. Benim nöron aktivasyon fonksiyonu için tanh (harita -1 1) vs sigmoid (harita 0 1) kullanarak artılarını ve eksilerini anlamaya çalışıyorum. Okuduğumdan beri, marjinal farklılıklarla küçük bir şey gibi geldi. Sorunlarım için pratikte sigmoidin eğitilmesinin daha kolay olduğunu ve garip bir şekilde sigmoid'in genel çözümü daha iyi bulduğunu düşünüyorum. Bununla demek istediğim, sigmoid versiyon eğitimi tamamlandığında, tanh versiyonunun referans üzerinde zayıf bir şekilde yaparken eğitim verileri hakkında doğru cevapları alabildiği referans (eğitimsiz) veri setinde iyi iş çıkarıyor. Bu aynı ağ mimarisi içindir.

Bir sezgi, sigmoid ile, bir nöronun neredeyse tamamen kapanmasının daha kolay olması, böylece sonraki katmanlara hiçbir girdi sağlamamasıdır. Tanh'ın girişlerini mükemmel bir şekilde iptal etmesi gerektiğinden burada daha zor bir zamanı var, aksi takdirde her zaman bir sonraki katmana bir değer veriyor. Belki de bu sezgi yanlıştır.

Uzun yazı. Sonuç olarak, ticaret nedir ve büyük bir fark yaratmalı mı?

Yanıtlar:


23

Symon Haykin'in "Sinir Ağları: Kapsamlı Bir Vakıf" kitabında alıntıladığım şu açıklama var:

Öğrenme süresinin en aza indirilmesi için sıfır olmayan ortalama girdilerin kullanımından kaçınılmalıdır. Şimdi, çok katmanlı bir algılayıcının ilk gizli katmanındaki bir nörona uygulanan sinyal vektörü söz konusu olduğunda, ağa uygulanmadan önce x'in her bir elemanından ortalamanın çıkarılması kolaydır . Peki ağın kalan gizli ve çıktı katmanlarındaki nöronlara uygulanan sinyaller ne olacak? Bu sorunun cevabı ağda kullanılan aktivasyon fonksiyonunun tipindedir. Aktivasyon fonksiyonu sigmoid fonksiyonunda olduğu gibi simetrik değilse, her nöronun çıkışı [ 0 , 1 ] aralığıyla sınırlıdır . Böyle bir seçim, sistematik bir önyargı kaynağı sunarxx[0,1]ağın ilk katmanının ötesinde bulunan nöronlar için. Bu sorunun üstesinden gelmek için hiperbolik tanjant fonksiyonu gibi antisimetrik bir aktivasyon fonksiyonu kullanmamız gerekir. Bu son seçenekle, her nöronun çıktısının aralığında hem pozitif hem de negatif değerleri almasına izin verilir , bu durumda ortalamasının sıfır olması muhtemeldir. Ağ bağlantısı büyükse, antisimetrik aktivasyon fonksiyonları ile geri yayılım öğrenme, ampirik kanıtların da bulunduğu simetrik olmayan aktivasyon fonksiyonları ile benzer bir süreçten daha hızlı yakınsama sağlayabilir (LeCun ve ark.1991).[1,1]

Atıfta bulunulan referans:

  • Y. LeCun, I. Kanter ve SASolla: "Hata yüzeylerinin ikinci dereceden özellikleri: öğrenme süresi ve genelleme", Nöral Bilgi İşleme Sistemlerindeki Gelişmeler, cilt. 3, sayfa 918-924,1991.

Bir başka ilginç referans şudur:

  • Y. LeCun, L. Bottou, G. Orr ve K. Muller: " Verimli BackProp ", Orr, G. ve Muller K. (Eds), Yapay Sinir Ağları: Ticaretin püf noktaları, Springer, 1998

ReLU nöronları, önyargılarına rağmen oldukça iyi çalışıyor gibi görünüyor. Bununla ilgili düşüncelerin var mı?
Ark-kun

@ Ark-kun, ReLU nöronları hakkında fazla bir şey bilmiyorum, ancak yazarların bu tür aktivasyon fonksiyonunun avantajlarını açıkladığı bu makaleye başvurabilirim. X. Glorot, A. Bordes ve Y. Bengio "Derin seyrek doğrultucu sinir ağları AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv

1

Bu iki aktivasyon fonksiyonu birbirine çok benzer, fakat ofsettir. Orijinal ağımın önyargı terimleri yoktu. Önyargı eklediğinden, her şey çok daha kararlıdır. Deneyimlerime dayanarak, bunlardan birinin veya diğerinin, karmaşık, muhtemelen bilinmeyen nedenlerle belirli bir uygulama için daha iyi çalışabileceğini söyleyebilirim, ancak doğru yaklaşım, etkinleştirme ofsetine bağımlılığın azaltılabilmesi veya ortadan kaldırılabilmesi için önyargı terimlerini dahil etmektir.


0

tanh

L=-1nΣben(ybengünlük(pben)+(1-yben)günlük(1-pben))

nerede yben örnek için hedef değerdir ben ve pben ağın örnek çıktısıdır ben.

Eğer pben bir çıktı tanhsonuçta negatif değerlerin logaritmasını alırsınız. Dolayısıyla, çıkıştaki sigmoid aktivasyon fonksiyonları bu durumlar için daha iyi bir seçimdir.


Yine de ölçeklendirebilirsiniz. tanh (X) -1 türevi paylaşıyor ve negatif günlük problemi yok
Pablo Arnau González
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.