ReLU'yu, hiper parametreli 1 sızdıran varyantı ve varyantı öğrenme sırasında dinamik parametrelendirmeyle birleştirmek iki farklı şeyi karıştırır:
- Sızan varyantı ile relu arasındaki karşılaştırma yakından önlemek doygunluk, çok spesifik ML durumda ihtiyaç olup olmadığına karar ile ilgilidir - Doyma ya sıfırdır gradyanı sinyalin sana kaybı 2 veya dijital kaynaklanan kaotik gürültü hakimiyeti yuvarlama 3 .
- Antrenman-dinamik aktivasyon ( literatürde parametrik olarak adlandırılır ) ve antrenman-statik aktivasyon arasındaki karşılaştırma, aktivasyonun doğrusal olmayan veya pürüzsüz olmayan özelliklerinin yakınsama oranı 4 ile ilgili herhangi bir değere sahip olup olmadığına dayanmalıdır .
ReLU'nun asla parametrik olmama sebebi, bunu yapmak gereksizdir. Negatif etki alanında sabit sıfırdır. Negatif olmayan alanda, türevi sabittir. Aktivasyon girdi vektörü zaten bir vektör matris ürünü ile zayıflatıldığından (matris, küp veya hiper küp zayıflama parametrelerini içerir) negatif olmayan alan için sabit türevi değiştirmek için bir parametre eklemenin yararlı bir amacı yoktur .
Aktivasyonda eğrilik olduğunda, artık tüm aktivasyon katsayılarının parametre olarak gereksiz olduğu doğru değildir. Onların değerleri eğitim sürecini ve dolayısıyla yakınsamanın hızını ve güvenilirliğini önemli ölçüde değiştirebilir.
Oldukça derin ağlar için fazlalık yeniden ortaya çıkar ve literatürde hem teoride hem de pratikte bunun kanıtı vardır.
- Cebirsel terimlerle, derinlik (katman sayısı olarak) sonsuzluğa yaklaştıkça ReLU ile parametrik olarak dinamik aktivasyonlar arasındaki eşitsizlik sıfıra yaklaşır.
- Açıklayıcı terimlerle, eğer yeterli sayıda katman verilirse , ReLU eğrilik 5 ile fonksiyonları doğru olarak tahmin edebilir .
Bu nedenle, daha sığ ağlar için yukarıda belirtilen doygunluk sorunlarının önlenmesi için avantajlı olan ELU çeşidi, daha derin olanlar için kullanılmaz.
Yani iki şeye karar verilmeli.
- Parametrik aktivasyonun faydalı olup olmadığı genellikle istatistiksel bir popülasyondan birkaç örnekle yapılan deneylere dayanır. Ancak katman derinliği yüksekse bununla denemeye gerek yoktur.
- Sızdıran varyantın değer olup olmadığı, geri yayılma sırasında karşılaşılan sayısal aralıklarla çok ilgilidir. Eğim, eğitim sırasında herhangi bir noktada geri yayılma sırasında kaybolan şekilde küçülürse, aktivasyon eğrisinin sabit bir kısmı sorunlu olabilir. Böyle bir durumda, pürüzsüz olmayan fonksiyonlardan biri veya sıfır olmayan iki eğimi olan sızıntılı RelU yeterli çözüm sağlayabilir.
Özetle, seçim asla kolaylık seçeneği değildir.
Dipnotlar
[1] Hiper-parametreler, o katman için girişlerin zayıflamasının bir parçası olmayan katman boyunca sinyallemeyi etkileyen parametrelerdir. Zayıflatma ağırlıkları parametrelerdir. Diğer parametreler hiper-parametre kümesinde bulunur. Bu, öğrenme hızını, geri yayılmadaki yüksek frekansların sönümlemesini ve tüm ağ için olmasa bile, tüm katman için ayarlanmış çok çeşitli diğer öğrenme kontrollerini içerebilir.
Degrade sıfırsa, ayarların yönü bilinmediği ve büyüklüğünün sıfır olması gerektiğinden parametrelerin akıllıca ayarlanması mümkün değildir. Öğrenme durur.
[3] CPU çok küçük değerleri en yakın dijital gösterimlere yuvarlarken ortaya çıkan kaotik gürültü, katmanlara geri yayılması amaçlanan düzeltme sinyaline hakim olursa, düzeltme saçma hale gelir ve öğrenme durur.
Yakınsama hızı, öğrenme sonucunun (sistem davranışı) yeterince iyi kabul edilene yaklaştığı hızın (mikrosaniye veya algoritmanın yineleme indeksine göre) bir ölçüsüdür. Bu genellikle yakınsama (öğrenme) için bazı resmi kabul kriterlerine belirli bir yakınlıktır.
[5] Eğrilikli fonksiyonlar düz veya düz görünmeyen fonksiyonlardır. Bir parabolün eğriliği vardır. Düz bir çizgi yapmaz. Yumurtanın yüzeyi eğriliğe sahiptir. Mükemmel bir düz düzlem yapmaz. Matematiksel olarak, fonksiyonun Hessian öğelerinden herhangi biri sıfır değilse, fonksiyonun eğriliği vardır.