Kabul edilen cevaba biraz ayrıntı eklemek istiyorum, çünkü bunun biraz daha farklı olduğunu ve nüansın, RNN'ler hakkında ilk öğrenen bir kişi için net olamayacağını düşünüyorum.
Vanilya RNN için, .
∂ht′∂ht=∏k=1t′−twσ′(wht′−k)
LSTM için, frak
∂st′∂st=∏k=1t′−tσ(vt+k)
- sorulması gereken doğal bir soru, her iki ürün toplamının da zamanları ile çarpıldığında gibi bir terim yok mu?t′−t
- Cevap evet , bu yüzden LSTM de yoksunluk derecelerinde yok olacak, ama neredeyse vanilya RNN kadar değil
Fark vanilya RNN için, gradyan azalırken, LSTM için degrade ile azalır .wσ′(⋅)σ(⋅)
LSTM için, olan bazı ağırlık ve girişleri için olduğunu ağırlık vardır . O zaman sinir ağı degradelerin kaybolmasını önlemek için büyük bir öğrenebilir .
σ(⋅)≈1
vt+k=wxwxw
Örn: 1D durumunda , ise, bozunma faktörü veya gradyan şu şekilde ölür:x=1w=10 vt+k=10σ(⋅)=0.99995
(0.99995)t′−t
Vanilya RNN için, olacak şekilde öğrenilebilecek bir ağırlık seti yoktur.
wσ′(wht′−k)≈1
örneğin 1D durumunda, olduğunu varsayalım . Fonksiyonu bir maksimuma ulaşır az . Bu, degradenin, gibi bozulmayacağı anlamına gelir.ht′−k=1wσ′(w∗1)0.224w=1.5434
(0.224)t′−t