ReLU neden bir aktivasyon fonksiyonu olarak kullanılır?

21

Aktivasyon fonksiyonları, tipin doğrusal çıktısında doğrusal olmayanları tanıtmak için kullanılır w * x + b bir nöral ağdaki .

Hangi sigmoid gibi aktivasyon fonksiyonları için sezgisel olarak anlayabiliyorum.

Backpropagation sırasında ölü nöronlardan kaçınan ReLU'nun avantajlarını anlıyorum. Ancak, çıktı doğrusal ise ReLU'nun aktivasyon fonksiyonu olarak neden kullanıldığını anlayamıyorum?

Eğer doğrusallık getirmezse, etkinleştirme fonksiyonu olmanın bütün noktası yenilmez mi?

— Tavşan
kaynak

21

Matematik bir fonksiyonu doğrusal olarak kabul edilir her bir fucntion ise her için ve alanı içinde , aşağıdaki özelliğe sahiptir: . Tanım olarak, ReLU . Bu nedenle, alan adını veya ayırırsak $f: A \rightarrow B$ $x$ $y$ $A$ $f(x) + f(y) = f(x+y)$ $max(0,x)$ $(-\infty, 0]$ . Dolayısıyla tanım gereği ReLU doğrusal değildir. sonra fonksiyon doğrusaldır. Ancak, $[0, \infty)$ $f(-1) + f(1) \neq f(0)$

Bununla birlikte, ReLU lineer o kadar yakındır ki, bu genellikle insanları karıştırır ve evrensel bir tahminci olarak nasıl kullanılabileceğini merak eder. Deneyimlerime göre, onları düşünmenin en iyi yolu Riemann toplamları gibidir. Çok sayıda küçük dikdörtgen ile sürekli işlevleri yaklaşık olarak tahmin edebilirsiniz. ReLU aktivasyonları çok sayıda küçük dikdörtgen üretebilir. Aslında, uygulamada, ReLU oldukça karmaşık şekiller oluşturabilir ve birçok karmaşık alana yaklaşabilir.

Ayrıca başka bir noktayı açıklığa kavuşturmak istiyorum. Önceki bir cevabın işaret ettiği gibi, nöronlar Sigmoid'de ölmez, daha ziyade yok olur. Bunun nedeni, maksimum olarak sigmoid fonksiyonunun türevinin .25 olmasıdır. Bu nedenle, çok fazla katmandan sonra bu degradeleri çoğaltırsınız ve 1'den küçük çok küçük sayıların ürünü çok hızlı bir şekilde sıfıra gitme eğilimindedir.

Bu nedenle, çok sayıda katmana sahip derin bir öğrenme ağı oluşturuyorsanız, sigmoid işlevleriniz aslında oldukça hızlı bir şekilde durur ve az çok işe yaramaz hale gelir.

Kilit nokta, yok olmanın, degradeleri değil degradeleri çoğaltmasıdır.

— Tophat
kaynak

7

Backpropagation sırasında ölü nöronlardan kaçınan ReLU'nun avantajlarını anlıyorum.

Bu tamamen doğru değil. Nöronlar ölmedi. Sigmoid benzeri aktivasyonlar kullanırsanız, bazı iterasyonlardan sonra degradelerin değeri çoğu nöron için doyurulur. Degradenin değeri çok küçük olacak ve öğrenme süreci çok yavaş gerçekleşecek. Bu, sigmoid benzeri aktivasyon fonksiyonlarında bulunan gradyanları yok eder ve patlar. Tersine, ölmekte olan ReLUReLU olarak adlandırılan doğrusal olmayan bir şey kullanırsanız ölü nöronlar meydana gelebilir .

Çıktı doğrusal ise ReLU'nun neden bir aktivasyon fonksiyonu olarak kullanıldığını anlayamıyorum

Kesinlikle doğrusal değildir. Basit bir tanım olarak, doğrusal fonksiyon, kendi alanındaki girdiler için aynı türevi olan bir fonksiyondur.

Doğrusal fonksiyon ekonomide popülerdir. Çekici çünkü matematiksel olarak kullanımı basit ve kolaydır. Birçok önemli uygulaması vardır. Doğrusal fonksiyonlar, grafiği düz bir çizgi olan fonksiyonlardır. Doğrusal bir işlev aşağıdaki forma sahiptir:

y = f (x) = a + bx

Doğrusal bir işlevin bir bağımsız değişkeni ve bir bağımlı değişkeni vardır. Bağımsız değişken x, bağımlı değişken y'dir.

a sabit terim veya y kesişimidir. X = 0 olduğunda bağımlı değişkenin değeridir.

b, bağımsız değişkenin katsayısıdır. Eğim olarak da bilinir ve bağımlı değişkenin değişim oranını verir.

ReLUdoğrusal değildir . Basit cevap, ReLUçıktının düz bir çizgi olmaması, x ekseninde bükülmesidir. Daha ilginç olan nokta, bu doğrusal olmamanın sonucudur. Basit bir ifadeyle, doğrusal işlevler düz bir çizgi kullanarak özellik düzlemini incelemenizi sağlar. Ancak ReLUs'nin doğrusal olmama özelliğiyle, özellik düzleminde rasgele şekilli eğriler oluşturabilirsiniz.

ReLUbeklenen değeri olan bir dezavantajı olabilir. Çıktısı için herhangi bir sınırlama yoktur Reluve beklenen değeri sıfır değildir. beklenen değeri sıfıra eşit olduğundan ve daha derin katmanlarda öğrenme daha hızlı gerçekleştiğinden Tanhdaha popülerdi sigmoid. ReLUBu avantajı olmamasına rağmen bu sorunubatch normalization çözer .

Daha fazla bilgi için buraya ve buraya da başvurabilirsiniz .

— medya
kaynak