RNN'lerin (ve özellikle LSTM üniteleri ile) nasıl çalıştığı hakkında temel bilgiye sahibim. Değerlerin akışını düzenleyen bir hücre ve birkaç kapı olan bir LSTM biriminin mimarisi hakkında resimsel bir fikrim var.
Bununla birlikte, görünüşe göre, LSTM'nin geleneksel bir RNN zaman içinde geri yayılım kullanarak, eğitim sırasında ortaya çıkan "yok olan ve patlayan degradeleri" problemini nasıl çözdüğünü tam olarak anlamadım. Matematiği tam olarak anlamak için kağıtları okuma fırsatım olmadı.
Bu cevap , LSTM ünitelerine sahip RNN'lerin "yok olan gradyanlar" problemini nasıl çözdüğü hakkında kısa bir açıklama vermektedir. Matematiksel olarak, bunun nedeni yok olmayan, yani sıfıra gitmeyen bir türevin var olmamasıdır. Sonuç olarak yazar, "eğimin yok olmadığı en az bir yol vardır" diye belirtmektedir. IMHO, bu açıklama biraz belirsiz.
Bu arada, Yapay Sinir Ağları ile Dizi Öğrenmeye İlişkin Sıralamayı (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) okuyordum ve bu makalede "3.4 Eğitim detayları" bölümünde belirtildi
Her ne kadar LSTM'ler yok olan gradyan probleminden muzdarip olmasa da, patlayan gradyanlara sahip olabilirler.
Her zaman LSTM ünitelerine sahip RNN'lerin hem "yok olan" hem de "patlayan degradeler" sorunlarını çözdüğünü düşünmüştüm, ancak görünüşe göre LSTM ünitelerine sahip RNN'lerin de "patlayan degradelerden" muzdarip olduğu görülüyor.
Sezgisel olarak, neden böyle? Matematiksel olarak, nedenleri nelerdir?