Aktivasyon fonksiyonlarının neden monotonik olması gerekir?


15

Şu anda sinir ağları üzerinde bir sınava hazırlanıyorum. Önceki sınavların çeşitli protokollerinde nöronların aktivasyon fonksiyonlarının (çok katmanlı algılayıcılarda) monotonik olması gerektiğini okudum.

Aktivasyon fonksiyonlarının ayırt edilebilir olması, çoğu noktada 0 olmayan bir türeve sahip olması ve doğrusal olmaması gerektiğini anlıyorum. Monotonik olmanın neden önemli / yararlı olduğunu anlamıyorum.

Aşağıdaki aktivasyon fonksiyonlarını ve monotonik olduklarını biliyorum:

  • relu
  • sigmoid
  • tanh
  • Softmax: Monotonite tanımının ile işlevleri için geçerli olup olmadığından emin değilim.f:RnRmn,m>1
  • SOFTPLUS
  • (Kimlik)

Ancak, örneğin için herhangi bir neden göremiyorum .φ(x)=x2

Aktivasyon fonksiyonlarının neden monotonik olması gerekir?

(İlgili taraf sorusu: logaritma / üstel fonksiyonun aktivasyon fonksiyonu olarak kullanılmamasının bir nedeni var mı?)



1
@MartinThoma softmax adlı kişinin monotonik olduğundan emin misiniz?
Medya

1
@Medya'ya teşekkürler. Sorunuzu cevaplamak için: "monotonik" in ve işlevler için ne anlama geldiğinden emin değilim . İçin SoftMax sürekli ve böylece monoton. Ama tanımlamadan elemanları için de ile Ben monoton markaları herhangi duygusu sanmıyorum. m > 1 m = 1 < R n n > 1f:RnRmm>1m=1<Rnn>1
Martin Thoma

1
@MartinThoma Teşekkürler, aslında benim de bir sorumdu. Birden fazla çıkışı olan fonksiyonlarda monotonik için bir uzantı olup olmadığını bilmiyordum ve hala bilmiyorum. Matematik şeyler, biliyorsun!
Medya

Yanıtlar:


13

Monotonluk kriteri, sinir ağının daha doğru bir sınıflandırıcıya daha kolay yakınsamasına yardımcı olur. Daha fazla ayrıntı ve neden için stackexchange yanıtı ve wikipedia makalesine bakın .

Bununla birlikte, monotonluk kriteri bir aktivasyon fonksiyonu için zorunlu değildir - Sinir ağlarını monotonik olmayan aktivasyon fonksiyonları ile eğitmek de mümkündür. Sinir ağını optimize etmek zorlaşıyor. Yoshua Bengio'nun cevabına bakın .


-1

Monoton bir işleve sahip olmanın neden yardımcı olduğu konusunda daha matematiksel bir neden sunacağım!

Aktivasyon fonksiyonumuzun monoton olduğunu varsayarak, http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun kullanarak gerçek fonksiyonumuzda fonksiyonumuzun türevlenebilir. Dolayısıyla, etkinleştirme işlevinin gradyanı düzensiz bir işlev olmayacaktır. Aradığımız minimi bulmak daha kolay olacak. (hesaplamalı olarak ucuz)

Üstel ve Logaritmik işlevler güzel işlevlerdir, ancak sınırlandırılmamıştır (Bu nedenle, Lebesgue Teoreminin tersi, Exp ve Log gerçek çizgiyle sınırlı olmayan ayırt edilebilir işlevler olduğu için doğru değildir). Son aşamada örneklerimizi sınıflandırmak istediğimizde başarısız oluyorlar. Sigmoid ve tanh gerçekten iyi çalışıyor çünkü hesaplanması kolay gradyanları var ve aralıkları sırasıyla (0,1) ve (-1,1).


2
Sonsuz sayıda farklılaşabilir, ancak monoton işlevler yoktur. Peki, monoton bir işleve sahip olmak neden yardımcı olur?
Martin Thoma
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.