LSTM ünitelerine sahip RNN'ler neden “patlayan gradyanlardan” muzdarip olabilir?


13

RNN'lerin (ve özellikle LSTM üniteleri ile) nasıl çalıştığı hakkında temel bilgiye sahibim. Değerlerin akışını düzenleyen bir hücre ve birkaç kapı olan bir LSTM biriminin mimarisi hakkında resimsel bir fikrim var.

Bununla birlikte, görünüşe göre, LSTM'nin geleneksel bir RNN zaman içinde geri yayılım kullanarak, eğitim sırasında ortaya çıkan "yok olan ve patlayan degradeleri" problemini nasıl çözdüğünü tam olarak anlamadım. Matematiği tam olarak anlamak için kağıtları okuma fırsatım olmadı.

Bu cevap , LSTM ünitelerine sahip RNN'lerin "yok olan gradyanlar" problemini nasıl çözdüğü hakkında kısa bir açıklama vermektedir. Matematiksel olarak, bunun nedeni yok olmayan, yani sıfıra gitmeyen bir türevin var olmamasıdır. Sonuç olarak yazar, "eğimin yok olmadığı en az bir yol vardır" diye belirtmektedir. IMHO, bu açıklama biraz belirsiz.

Bu arada, Yapay Sinir Ağları ile Dizi Öğrenmeye İlişkin Sıralamayı (Ilya Sutskever, Oriol Vinyals, Quoc V. Le) okuyordum ve bu makalede "3.4 Eğitim detayları" bölümünde belirtildi

Her ne kadar LSTM'ler yok olan gradyan probleminden muzdarip olmasa da, patlayan gradyanlara sahip olabilirler.

Her zaman LSTM ünitelerine sahip RNN'lerin hem "yok olan" hem de "patlayan degradeler" sorunlarını çözdüğünü düşünmüştüm, ancak görünüşe göre LSTM ünitelerine sahip RNN'lerin de "patlayan degradelerden" muzdarip olduğu görülüyor.

Sezgisel olarak, neden böyle? Matematiksel olarak, nedenleri nelerdir?

Yanıtlar:


12

Çok kısa bir cevap:

LSTM hücre durumunu (tipik olarak ile gösterilir c) ve gizli katmanı / çıktıyı (genellikle ile gösterilir h) ayırır ve yalnızca ek güncellemeleri cyapar, bu da anıları cdaha kararlı hale getirir . Böylece geçişin içinden akar cve kaybolması zordur (bu nedenle toplam eğimin yok edilmesi zordur). Ancak, diğer yollar gradyan patlamasına neden olabilir.


Matematiksel açıklama ile daha ayrıntılı bir cevap:

Önce CEC (Sabit Hata Döngüsü) mekanizmasını inceleyelim. MSK zaman adımdan diyor tetmek t+1unutmak kapısı 1 (böylece bu durum her zaman, hiçbir orijinal LSTM kağıt kapısı unutmak var), gradyan ise değişiklik olmadan akabilir. LSTM belgesindeki BPTT formüllerini takiben: Bir Arama Alanı Odyssey Ek A.2 ( makalede diğer literatürde yer almaktadır), CEC akışı aslında . Tüm 1'e yakın olan, birikir kayıplı.dl/dctyhδct=+δct+1ft+1ft+1δct+1δct

Bununla birlikte, LSTM CEC'den daha fazladır. ile arasındaki CEC yolunun yanı sıra, bitişik iki zaman adımı arasında başka yollar da vardır. Örneğin, . Arka yayılma işleminde 2 adımda : , de vanilya RNN'leri gibi bu yolda iki kez çarpıldığını ve bu da gradyan patlamasına neden olabileceğini görüyoruz. Benzer şekilde, giriş ve unut kapısından geçen yollar da matrislerinin kendi kendine çarpımı nedeniyle gradyan patlamasına neden .ctct+1ytÖt+1yt+1δytR,ÖTδÖt+1δyt+1R,ÖTδÖt+2R,ÖTR,benT,R,fT,R,zT

Referans:

Greff, RK Srivastava, J. Koutn´ık, BR Steunebrink ve J.Schmidhuber. LSTM: Bir arama alanı odyssey. CoRR, abs / 1503.04069, 2015.


Bu makale için tam bir alıntı yapabilir misiniz? Bağlantılar ölme eğilimindedir.
mkt - Monica

2
@mkt Tavsiyeniz için teşekkürler. Aslında bu çok ünlü bir kağıttır ve bağlantı arXiv'e gider, bu yüzden ölmesi muhtemel değildir, lol ~ Ama sürüm v1'i kontrol ettiğinizden emin olun (çünkü mevcut sürüm v2 bir ek içermez).
soloice

Yine de eklediğiniz için teşekkürler ve ekle ilgili ayrıntılar.
mkt - Monica

Harika bir cevap, genellikle +1 koymak için yorum yapmam, ancak bu bunu hak ediyor. Bir LSTM hücresinde muhtemelen kararsız yolların matris cebri ile gerçek bir örnek gösterilmesi OP'ye tam olarak cevap verir.
DeltaIV

3

LSTM / GRU'dan önceki RNN'ler dengesizdi çünkü yaptıkları şey aslında gizli durumun her zaman aralığı için bazı ağırlıklar ile çarpılmasıydı, bu da üstel bir işlem olduğu anlamına geliyor. Ve bildiğimiz gibi, üs alma çok kararsızdır: LSTM / GRU hücreleri, çarpmayı ek haline getirerek bu sorunu çözmektedir. Bir hücre durumunuz var ve çoğaltmak yerine, onu toplar veya çıkarırsınız.

0.992000.134
1200=1
1.0120013

Bununla birlikte, degradenin kararsız hale gelebileceği bazı yollar vardır ve ağ ne kadar büyük olursa, bu sorunla karşılaşmanız o kadar olasıdır.


3
Bu neden soruma cevap versin? Ayrıntıları bilmek istiyorum.
nbro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.