ReLU vs Leaky ReLU ve Parametrik ReLU'nun (varsa) avantajları nelerdir?

Bence ReLU yerine Leaky ReLU kullanmanın avantajı, bu şekilde yok olan bir eğime sahip olamayız. Parametrik ReLU, negatif girişler için çıkışın eğiminin öğrenilebilir bir parametre olmasıyla aynı avantaja sahiptir, ancak Leaky ReLU'da bir hiperparametredir.

Ancak, Leaky ReLU veya Parametric ReLU yerine ReLU'nun kullanılmasının daha uygun olduğu durumlar olup olmadığını söyleyemiyorum.

neural-networks activation-function relu

— gvgramazio
kaynak

ReLU'yu, hiper parametreli ¹ sızdıran varyantı ve varyantı öğrenme sırasında dinamik parametrelendirmeyle birleştirmek iki farklı şeyi karıştırır:

Sızan varyantı ile relu arasındaki karşılaştırma yakından önlemek doygunluk, çok spesifik ML durumda ihtiyaç olup olmadığına karar ile ilgilidir - Doyma ya sıfırdır gradyanı sinyalin sana kaybı ² veya dijital kaynaklanan kaotik gürültü hakimiyeti yuvarlama ³ .
Antrenman-dinamik aktivasyon ( literatürde parametrik olarak adlandırılır ) ve antrenman-statik aktivasyon arasındaki karşılaştırma, aktivasyonun doğrusal olmayan veya pürüzsüz olmayan özelliklerinin yakınsama oranı ⁴ ile ilgili herhangi bir değere sahip olup olmadığına dayanmalıdır .

ReLU'nun asla parametrik olmama sebebi, bunu yapmak gereksizdir. Negatif etki alanında sabit sıfırdır. Negatif olmayan alanda, türevi sabittir. Aktivasyon girdi vektörü zaten bir vektör matris ürünü ile zayıflatıldığından (matris, küp veya hiper küp zayıflama parametrelerini içerir) negatif olmayan alan için sabit türevi değiştirmek için bir parametre eklemenin yararlı bir amacı yoktur .

Aktivasyonda eğrilik olduğunda, artık tüm aktivasyon katsayılarının parametre olarak gereksiz olduğu doğru değildir. Onların değerleri eğitim sürecini ve dolayısıyla yakınsamanın hızını ve güvenilirliğini önemli ölçüde değiştirebilir.

Oldukça derin ağlar için fazlalık yeniden ortaya çıkar ve literatürde hem teoride hem de pratikte bunun kanıtı vardır.

Cebirsel terimlerle, derinlik (katman sayısı olarak) sonsuzluğa yaklaştıkça ReLU ile parametrik olarak dinamik aktivasyonlar arasındaki eşitsizlik sıfıra yaklaşır.
Açıklayıcı terimlerle, eğer yeterli sayıda katman verilirse , ReLU eğrilik ⁵ ile fonksiyonları doğru olarak tahmin edebilir .

Bu nedenle, daha sığ ağlar için yukarıda belirtilen doygunluk sorunlarının önlenmesi için avantajlı olan ELU çeşidi, daha derin olanlar için kullanılmaz.

Yani iki şeye karar verilmeli.

Parametrik aktivasyonun faydalı olup olmadığı genellikle istatistiksel bir popülasyondan birkaç örnekle yapılan deneylere dayanır. Ancak katman derinliği yüksekse bununla denemeye gerek yoktur.
Sızdıran varyantın değer olup olmadığı, geri yayılma sırasında karşılaşılan sayısal aralıklarla çok ilgilidir. Eğim, eğitim sırasında herhangi bir noktada geri yayılma sırasında kaybolan şekilde küçülürse, aktivasyon eğrisinin sabit bir kısmı sorunlu olabilir. Böyle bir durumda, pürüzsüz olmayan fonksiyonlardan biri veya sıfır olmayan iki eğimi olan sızıntılı RelU yeterli çözüm sağlayabilir.

Özetle, seçim asla kolaylık seçeneği değildir.

Dipnotlar

[1] Hiper-parametreler, o katman için girişlerin zayıflamasının bir parçası olmayan katman boyunca sinyallemeyi etkileyen parametrelerdir. Zayıflatma ağırlıkları parametrelerdir. Diğer parametreler hiper-parametre kümesinde bulunur. Bu, öğrenme hızını, geri yayılmadaki yüksek frekansların sönümlemesini ve tüm ağ için olmasa bile, tüm katman için ayarlanmış çok çeşitli diğer öğrenme kontrollerini içerebilir.

Degrade sıfırsa, ayarların yönü bilinmediği ve büyüklüğünün sıfır olması gerektiğinden parametrelerin akıllıca ayarlanması mümkün değildir. Öğrenme durur.

[3] CPU çok küçük değerleri en yakın dijital gösterimlere yuvarlarken ortaya çıkan kaotik gürültü, katmanlara geri yayılması amaçlanan düzeltme sinyaline hakim olursa, düzeltme saçma hale gelir ve öğrenme durur.

Yakınsama hızı, öğrenme sonucunun (sistem davranışı) yeterince iyi kabul edilene yaklaştığı hızın (mikrosaniye veya algoritmanın yineleme indeksine göre) bir ölçüsüdür. Bu genellikle yakınsama (öğrenme) için bazı resmi kabul kriterlerine belirli bir yakınlıktır.

[5] Eğrilikli fonksiyonlar düz veya düz görünmeyen fonksiyonlardır. Bir parabolün eğriliği vardır. Düz bir çizgi yapmaz. Yumurtanın yüzeyi eğriliğe sahiptir. Mükemmel bir düz düzlem yapmaz. Matematiksel olarak, fonksiyonun Hessian öğelerinden herhangi biri sıfır değilse, fonksiyonun eğriliği vardır.

— FauChristian
kaynak

Ne demek istiyorsun Seçim asla kolaylık seçimi değil mi?

— gvgramazio

@gvgramazio, Sorunuzda "ReLU'yu kullanmak daha uygun" yazmıştınız. Kolaylığın seçimin yapıldığı temel olmadığını belirtiyordum. Belki de çok sert geliyor? Olmak niyetinde değildim. Cevabımdaki bu cümlenin üstündeki cümleler, aktivasyon işlevlerini seçerken kararınızı dayandırabileceğiniz daha yararlı kriterleri sağlamayı amaçladı.

— FauChristian

Çok sert olma konusunda endişelenme, benim için hiç sorun değil. Bence bu daha çok bir dil sorunu (ben anadili İngilizce değilim).

— gvgramazio

Gerçek şu ki, anladığım kadarıyla, hangi durumda bir varyantı diğerine göre tercih etmem gerektiğini iyi açıklıyorsunuz. Hala anlamadığım şey, klasik olanı tercih etmem gerektiğidir. örneğin sızdıran varyant, gradyanı yok etmek için yeterli bir çözüm sağlayabilir, ancak herhangi bir dezavantajı yoksa, ReLU'ya göre her zaman sızdıran varyantı seçebilirim.

— gvgramazio

@FauChristian biraz daha konuşma dilleri ve sezgiler ekleyebilir misiniz, ben matematik diline çok aşina değilim :)

— DuttaA