Bu nedenle, PReLU, ELU veya diğer sızdıran ReLU benzeri aktivasyonları kullanmak, sadece 0'a düşmeyen, fakat x öğrenmeye devam etmekte olumsuzlandığında 0.1 * x gibi bir şeye düşmesi daha iyi bir fikir olabilir. Uzun zamandan beri ReLU'ların sigmoid gibi bir tarih olduğu anlaşılıyor, ancak nedense insanlar bunlarla ilgili makaleler yayınlıyor. Neden? Bilmiyorum.
Dmytro Mishkin ve diğer çocuklar gerçekten bir çok farklı aktivasyon tipine sahip bir ağı test ettiler, farklı aktivasyon fonksiyonlarının ve diğer özelliklerin performansıyla ilgili bulgularını incelemelisiniz.. Yine de XOR gibi bazı işlevler düz ReLU ile daha iyi öğrenilir. Dogma terimleriyle hiçbir sinirsel şey düşünmeyin, çünkü sinir ağları devam eden çok fazla iş vardır. Dünyadaki hiç kimse onları ilahi gerçeği söyleyecek kadar iyi tanımıyor ve anlamıyor. Kimse. Bir şeyler denemek, kendi keşiflerinizi yapmak. ReLU’nun kendisini kullanmanın çok yeni bir gelişme olduğunu ve onlarca yıldan bu yana alandaki tüm doktora öğrencilerinin şu an sadece gülebileceğimiz aşırı karmaşık aktivasyon işlevlerini kullandıklarını unutmayın. Çok sık "çok fazla şey bilmek" size kötü sonuçlar verebilir. Sinir ağlarının kesin bir bilim olmadığını anlamak önemlidir. Matematikteki hiçbir şey sinir ağlarının gerçekte olduğu kadar iyi çalışacağını söylemez. Sezgisel. Ve bu yüzden çok dövülebilir.
FYI bile mutlak değer aktivasyonu bazı problemlerde, örneğin XOR benzeri problemlerde iyi sonuçlar alır. Farklı aktivasyon fonksiyonları farklı amaçlara daha uygundur. Cifar-10'u abs () ile denedim ve daha kötü bir performans gösterdi. Yine de, "görsel tanıma için daha kötü bir aktivasyon işlevidir" diyemem, çünkü örneğin ön-başlangıç işlemimin bunun için uygun olup olmadığından emin değilim. beni hayrete düşürdü.
Ayrıca, gerçek hayatta, backprop'a geçirdiğiniz "türevler", mutlaka gerçek matematik türevleriyle eşleşmek zorunda değildir.
Onlara "türev" demeyi yasaklamamız ve başka bir şey demeye başlamamız gerektiğini söyleyebildiğim kadar ileri giderdim, örneğin, error activation functions
Aklımızı onlarla başa çıkma ihtimallerine kapatmamak. Aslında, örneğin, ReLU aktivasyonunu kullanabilirsiniz, ancak x1 için bir türev olarak 0 yerine bunun yerine bir 0.1 veya benzeri bir şey kullanabilirsiniz. Bir şekilde, daha sonra sade bir ReLU'n var, ancak nöronların "uyumluluktan ölemediği" durumuyla. Ben buna NecroRelu diyorum, çünkü ölmeyen bir ReLU. Bazı durumlarda (kesinlikle çoğunda olmasa da), aslında x <0'da 0.1 türevi olan ve normal ReLU'dan daha iyi olan düz LeakyReLU'dan daha iyi çalışır. Çok fazla kimsenin böyle bir işlevi araştırdığını sanmıyorum, bununla birlikte, ya da benzer bir şey aslında kimsenin sadece matematiğe yoğunlaştığı için düşünmediği genel olarak serin bir aktivasyon işlevi olabilir.
Genel olarak kullanılanlara gelince, tanH (x) aktivasyon fonksiyonu için, işleri daha hızlı hesaplamak için türev olarak 1 - tanH (x) ² yerine 1 - x²'yi geçmek normaldir.
Ayrıca, ReLU’nun örneğin TanH’dan daha açık bir şekilde daha iyi olmadığını unutmayın. TanH muhtemelen bazı durumlarda daha iyi olabilir. Öyle gözüküyor, görsel olarak değil. Bununla birlikte, ELU, örneğin, bir miktar sigmoid yumuşaklığına sahiptir ve şu anda görsel tanıma için bilinen en iyi etkinleştirme işlevlerinden biridir. Gerçekten denemedim, ancak bahse girerim aynı katman seviyesinde farklı aktivasyon fonksiyonları olan birkaç grup bir avantaja ayarlayabilir. Çünkü farklı mantık, farklı aktivasyon fonksiyonlarıyla daha iyi tanımlanmaktadır. Ve bazen muhtemelen birkaç çeşit değerlendirmeye ihtiyaç duyarsınız.
Etkinleştirme işlevinizin türüne karşılık gelen bir intializasyonun önemli olduğunu unutmayın. Sızdıran ReLU'lar, örneğin, sade ReLU'lar gibi başka initlere ihtiyaç duyar.
EDIT: Aslına bakarsanız standart ReLU, modern mimarilere sahip sızdıranlara karşı daha az eğilimli görünüyor. En azından görüntü tanımada. Çok yüksek doğrulukta net bir parametre yükü ile net gidiyorsanız, düz ReLU vs sızdıran seçeneklere bağlı kalmak daha iyi olabilir. Ancak, elbette, tüm bunları kendiniz test edin. Belki, bazı sızdıran şeyler daha fazla düzenlileştirme yapıldığında daha iyi çalışacaktır.