Relu'nun tanım gereği 0 gradyanı var, o zaman gradyan yok etme neden x <0 için sorun değil?


10

Tanımı gereği Relu öyle max(0,f(x)). Daha sonra gradyanı olarak tanımlanır: 1 if x > 0 and 0 if x < 0.

Bu, x <0 olduğunda eğimin her zaman 0 (yok olduğu) anlamına gelmez mi? Öyleyse neden Relu'nun degrade kaybolma probleminden muzdarip olmadığını söylüyoruz?

Yanıtlar:


5

Çoğunlukla haklısın! ReLU'nun degrade kaybolmasıyla ilgili bir sorunu var, ancak sadece bir tarafta, bu yüzden başka bir şey diyoruz: 'ölmekte olan ReLU sorunu'. Daha fazla bilgi için bu yığın taşması yanıtına bakın: Sinir ağlarında "ölmekte olan ReLU" sorunu nedir?

Küçük bir anlamsal fark. Birçok işlev (tanh ve lojistik / sigmoid), standart çalışma aralığının dışında olduğunuzda sıfıra çok yakın türevlere sahiptir. Bu 'yok olan bir gradyan' sorunudur. Daha da kötüsü, iyi bölgeye geri dönmek zorlaşır. Relu vermez dolayısıyla (o tarafta) degrade sorunu kaybolan, kötü uzağa olumlu yönde olduğunu olsun. Bu asimetri, farklı bir şey demeyi haklı çıkarmak için yeterli olabilir, ancak fikirler oldukça benzer.


2
Eklemeye değer: Kaybolan gradyan problemi , doğrudan nöron aktarım fonksiyonlarının özellikleriyle değil, bir ağın derinliği üzerindeki aşamalı değişikliklerle ilgilidir .
Neil Slater

1

Yok olma, 0'a doğru gittiği, ancak hiçbir zaman 0 olmayacağı anlamına gelir. 0'ın gradyanlarına sahip olmak çok kolay hesaplamalar yapar, 0'a yakın gradyanlara sahip olmak, yavaş öğrenme ve sayısal konular anlamına gelen çok küçük değişikliklerin olduğu anlamına gelir. 1 ve 0, bu tür optimizasyon problemlerinde hesaplanması en kolay iki sayıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.