Matematik bir fonksiyonu doğrusal olarak kabul edilir her bir fucntion ise her için x ve y alanı içinde A , aşağıdaki özelliğe sahiptir: f ( x ) + f ( y ) = f ( x + y ) . Tanım olarak, ReLU m a x ( 0 , x ) dir . Bu nedenle, alan adını ( - ∞ , 0 ] veya ayırırsakf: A → Bxybirf( x ) + f( y) = f( x + y)m, bir x ( 0 , x )( - ∞ , 0 ]. Dolayısıyla tanım gereği ReLU doğrusal değildir. sonra fonksiyon doğrusaldır. Ancak, f ( - 1 ) + f ( 1 ) ≠ f ( 0 )[ 0 , ∞ )f( - 1 ) + f( 1 ) ≠ f( 0 )
Bununla birlikte, ReLU lineer o kadar yakındır ki, bu genellikle insanları karıştırır ve evrensel bir tahminci olarak nasıl kullanılabileceğini merak eder. Deneyimlerime göre, onları düşünmenin en iyi yolu Riemann toplamları gibidir. Çok sayıda küçük dikdörtgen ile sürekli işlevleri yaklaşık olarak tahmin edebilirsiniz. ReLU aktivasyonları çok sayıda küçük dikdörtgen üretebilir. Aslında, uygulamada, ReLU oldukça karmaşık şekiller oluşturabilir ve birçok karmaşık alana yaklaşabilir.
Ayrıca başka bir noktayı açıklığa kavuşturmak istiyorum. Önceki bir cevabın işaret ettiği gibi, nöronlar Sigmoid'de ölmez, daha ziyade yok olur. Bunun nedeni, maksimum olarak sigmoid fonksiyonunun türevinin .25 olmasıdır. Bu nedenle, çok fazla katmandan sonra bu degradeleri çoğaltırsınız ve 1'den küçük çok küçük sayıların ürünü çok hızlı bir şekilde sıfıra gitme eğilimindedir.
Bu nedenle, çok sayıda katmana sahip derin bir öğrenme ağı oluşturuyorsanız, sigmoid işlevleriniz aslında oldukça hızlı bir şekilde durur ve az çok işe yaramaz hale gelir.
Kilit nokta, yok olmanın, degradeleri değil degradeleri çoğaltmasıdır.