Doğrusal olmayanları doyurma terimi ne anlama geliyor?


30

Deep Convolutional Yapay Sinir Ağları ile ImageNet Sınıflandırması makalesini okuyordum ve 3. bölümde, Convolutional Sinir Ağlarının yapısını nasıl kullandıklarını açıkladıklarını açıklıyorlardı:

doygun olmayan doğrusal olmayanf(x)=mbirx(0,x).

çünkü eğitmek daha hızlıydı. Bu yazıda, CNN'lerde, sigmoidde ve hiperbolik teğetsel fonksiyonlarda (yani ve kullanılan daha geleneksel fonksiyonlar olarak doygun olmayan doymamışlıklara değindikleri görülüyor. doygunlaştırıcı olarak).f(x)=tbirnh(x)f(x)=11+e-x=(1+e-x)-1

Neden bu işlevleri “doygun” veya “doygun olmayan” olarak adlandırıyorlar? Bu işlev hangi anlamda “doygun” ya da “doygun olmayan”? Bu terimler evrişimsel sinir ağları bağlamında ne anlama geliyor? Makine öğreniminin diğer alanlarında (ve istatistiklerinde) kullanılıyor mu?


Ayrıca bu quora cevabını çok faydalı buldum .
frank

Yanıtlar:


26

Sezgi

Doyuran bir aktivasyon fonksiyonu girişi sıkar.


Tanımlar

  • f(|limz-f(z)|=+)(|limz+f(z)|=+)
  • ff

Bu tanımlar konvolüsyonel sinir ağlarına özgü değildir.


Örnekler

f(x)=mbirx(0,x)limz+f(z)=+

görüntü tanımını buraya girin

olarak tanımlanan sigmoid aktivasyon işlevif(x)=11+e-x[0,1]

görüntü tanımını buraya girin

[-1,1]

görüntü tanımını buraya girin

(rakamlar CS231n , MIT Lisansı)


1
ah, iyi mantıklı! Bunun asıl sorumun olmadığını biliyorum, ancak ML ve CNN'ler bağlamında bu özellik önemli olan nedir?
Charlie Parker

YSA'lar için, YSA'nın çıkış katmanını çok fazla etkileyen büyük çıkışlı bir üniteye sahip olmamak.
Franck Dernoncourt

tan ve sigmoid arasındaki fark nedir? ikisi de sayıları kapalı bir aralıkta eziyor! Anlamadım, bu abit'i biraz daha detaylandırabilir misin? Ben matematikte biraz kötüyüm. (bu arada CNN bakış açısıyla geliyorum)
Rika

@FranckDernoncourt Tanh aktivasyon fonksiyonu için doygunluk mu demek istediniz? Bir yazım hatası var sanırım? :)
CoderSpinoza

1
@tenCupMaximum: Şu doyurulması daha fazla ilave edilebilen bir noktaya kadar doldurmak için bir araç. Doyma işlevi bağlamında, belirli bir noktadan sonra, işlev girişindeki herhangi bir ilave artışın, çıkışında artık (maksimum) maksimum değerine ulaşan (anlamlı) bir artışa neden olmayacağı anlamına gelir. Bu noktada fonksiyon, "tamamen doludur", tabiri caizse (veya doymuş ).
Ruben van Bergen

0

En yaygın aktivasyon fonksiyonları LOG ve TanH'dir. Bu fonksiyonlar, sinirsel cevabı gerçek sayıların sınırlı bir alt kümesine sıkıştırdıkları anlamına gelen kompakt bir aralığa sahiptir. LOG, girişleri 0 ile 1 arasında, TAN H'yi -1 ile 1 arasında çıkışlara sıkıştırır. Bu fonksiyonlar sınırlarda sınırlayıcı davranış sergiler.

Sınırda, çıkışın ∂yj / ∂xj girişine göre gradyanı çok küçüktür. Yani Gradient küçük olduğundan yakınsamaya giden küçük adımlardır, dolayısıyla yakınsama için daha uzun zaman alır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.