Kabul edilen cevaba biraz ayrıntı eklemek istiyorum, çünkü bunun biraz daha farklı olduğunu ve nüansın, RNN'ler hakkında ilk öğrenen bir kişi için net olamayacağını düşünüyorum.
Vanilya RNN için, .∂ht′∂ht=∏k=1t′−twσ′(wht′−k)
LSTM için, frak∂st′∂st=∏k=1t′−tσ(vt+k)
- sorulması gereken doğal bir soru, her iki ürün toplamının da zamanları ile çarpıldığında gibi bir terim yok mu?t′−t
- Cevap evet , bu yüzden LSTM de yoksunluk derecelerinde yok olacak, ama neredeyse vanilya RNN kadar değil
Fark vanilya RNN için, gradyan azalırken, LSTM için degrade ile azalır .wσ′(⋅)σ(⋅)
LSTM için, olan bazı ağırlık ve girişleri için olduğunu ağırlık vardır . O zaman sinir ağı degradelerin kaybolmasını önlemek için büyük bir öğrenebilir .σ(⋅)≈1
vt+k=wxwxw
Örn: 1D durumunda , ise, bozunma faktörü veya gradyan şu şekilde ölür:x=1w=10 vt+k=10σ(⋅)=0.99995(0.99995)t′−t
Vanilya RNN için, olacak şekilde öğrenilebilecek bir ağırlık seti yoktur.wσ′(wht′−k)≈1
örneğin 1D durumunda, olduğunu varsayalım . Fonksiyonu bir maksimuma ulaşır az . Bu, degradenin, gibi bozulmayacağı anlamına gelir.ht′−k=1wσ′(w∗1)0.224w=1.5434(0.224)t′−t