Burada cevap, benzer sigmoid
aktivasyon fonksiyonları olan ama sanırım Relu
bir dezavantaja sahip olan ve beklenen değeri olan yok olan ve patlayan gradyanları ifade eder . çıkışı için bir sınırlama yoktur Relu
ve bu nedenle beklenen değeri sıfır değildir. Popülerlik önce hatırlıyorum Relu
o tanh
makine ziyade uzmanlar öğrenme arasında en popüler oldu sigmoid
. Bunun nedeni, beklenen değerinin tanh
sıfıra eşit olması ve daha derin katmanlarda öğrenmenin sinir ağında daha hızlı olmasına yardımcı olmasıdır. Relu
bu özelliğe sahip değil, ancak türev avantajını bir kenara bırakırsak neden bu kadar iyi çalışıyor. Dahası, türev de etkilenebilir. Çünkü aktivasyonlar (çıktıRelu
) güncelleme kurallarının hesaplanmasında yer alır.
CNN
normalleştirme çıktısı relu
yaygın değil mi? En azından bunu hiç görmedim.