LSTM, kaybolma gradyan problemini nasıl önler?

35

LSTM, kaybolan degrade sorununu önlemek için özel olarak icat edildi. Bunu, aşağıdaki diyagramdaki ( Greff ve diğerleri ) hücre çevresindeki halkaya karşılık gelen Sabit Hata Atlıkarınca (CEC) ile yapması gerekiyordu .

_{(kaynak: deeplearning4j.org )}

Ve o kısmın bir çeşit kimlik işlevi olarak görülebildiğini anlıyorum, bu yüzden türev bir ve gradyan sabit kalıyor.

Anlamadığım şey, diğer aktivasyon fonksiyonları nedeniyle nasıl ortadan kalkmadığı mı? Giriş, çıkış ve boşaltma kapıları, türevi en çok 0.25 olan ve g ve h geleneksel olarak tanh olan bir sigmoid kullanır . Degradeyi yaymayanlar arasında geçişi nasıl ortadan kaldırır?

neural-networks lstm

— TheWalkingCube
kaynak

2

LSTM, uzun vadeli bağımlılıkları hatırlamakta çok etkili olan ve kaybolan degrade sorununa açık olmayan tekrarlayan bir sinir ağı modelidir. Ne tür bir açıklama aradığınızdan emin değilim

— TheWalkingCube

LSTM: Uzun Kısa Süreli Bellek. (Ref: Hochreiter, S. ve Schmidhuber, J. (1997). Uzun Kısa Süreli Bellek. Sinirsel Hesaplama 9 (8): 1735-80 · Aralık 1997)

— horaceT

LSTM'lerdeki gradyanlar, vanilyalı RNN'lerden sadece daha yavaş kaybolur ve daha uzak bağımlılıkları yakalamalarını sağlar. Kaybolan gradyanlar probleminden kaçınmak halen aktif bir araştırma alanıdır.

— Artem Sobolev

1

Yavaş yavaş bir referansla kaybolanı geri almak ister misiniz?

— bayerj

related: quora.com/…

— Pinokyo

22

Ufuk gradyanı en iyi şekilde tek boyutlu durumda açıklanabilir. Çok boyutlu, daha karmaşık ama esasen benzer. Bu mükemmel makalede [1] inceleyebilirsiniz.

adımında gizli bir varsayalım . İşleri basitleştirir ve önyargıları ve girişleri kaldırırsak, O zaman bunu gösterebilirsin $h_t$ $t$

h_{t} = σ (w h_{t - 1}) .

$h_t = \sigma(w h_{t-1}).$

\begin{aligned} \frac{\partial h_{t^{'}}}{\partial h_{t}} & = \prod_{k = 1}^{t^{'} - t} w σ^{'} (w h_{t^{'} - k}) \\ = \underset{!!!}{\underset{⏟}{w^{t^{'} - t}}} \prod_{k = 1}^{t^{'} - t} σ^{'} (w h_{t^{'} - k}) \end{aligned}

$\begin{align} \frac{\partial h_{t'}}{\partial h_t} &= \prod_{k=1}^{t' - t} w \sigma'(w h_{t'-k})\\ &= \underbrace{w^{t' - t}}_{!!!}\prod_{k=1}^{t' - t} \sigma'(w h_{t'-k}) \end{align}$ ile işaretlenmiş faktörlü !!! çok önemlidir. Ağırlık 1'e eşit değilse, üssel olarak hızlı bir şekilde sıfıra veya üssel olarak hızlı büyür $t'-t$ .

LSTM'lerde s_t hücre durumuna . Buradaki türev Burada , unutma geçidinin girişidir. Gördüğünüz gibi, katlanarak hızlı bir bozucu faktör yok. Sonuç olarak, degradenin kaybolmadığı en az bir yol vardır. Tam türev için, bakınız [2]. $s_t$

\frac{\partial s_{t^{'}}}{\partial s_{t}} = \prod_{k = 1}^{t^{'} - t} σ (v_{t + k}) .

$\frac{\partial s_{t'}}{\partial s_t} = \prod_{k=1}^{t' - t} \sigma(v_{t+k}).$

v_{t}

$v_t$

[1] Pascanu, Razvan, Tomas Mikolov ve Yoshua Bengio. "Tekrarlayan sinir ağlarının eğitimi zorluğu üzerine." ICML (3) 28 (2013): 1310-1318.

[2] Bayer, Justin Simon. Öğrenme Dizisi Gösterimi. Diss. München, Technische Universität München, Diss., 2015, 2015.

— bayerj
kaynak

3

Lstm için h_t ayrıca h_ {t-1} 'e de bağlı değil mi? Ds_t / d_s {t-1} "degradelerin zaman içinde aktığı tek kısım" derken gazetenizde ne demek istiyorsunuz?

— user3243135,

@ user3243135 h_t, h_ {t-1} 'e bağlıdır. Ancak, ds_t / d_s {t-1} 'in tutulduğunu varsayalım, diğer degrade akışları ortadan kalksa bile, tüm degrade akışının kaybolmadığını. Bu, gradyan kaybolmasını çözer.

— soloice,

Her zaman ana meselenin terimi olduğunu düşünmüştüm, çünkü eğer genellikle bir sigmoidin (veya başka bir şeyin türevi 1'den daha az bir türev ile, bu kaybolan gradyanı kesin olarak kesin (örneğin, sigmoidler <1 büyüklüğünde ve türevleri , 1 kesin). ReLU'ların CNN'lerde kabul edilme nedeni bu değil miydi? Bu, sürekli ileri beslemeli modellerde tekrarlayan modellerde ufuk gradyanının nasıl ele alındığındaki fark konusunda beni şaşırtan şeylerden biri. Bunun için herhangi bir açıklama var mı?

\prod^{t^{'} - t} σ^{'} (w h_{t^{'} - k})

$\prod^{t'-t} \sigma'(w h_{t'-k} )$

σ^{'} (z)

$\sigma'(z)$

σ^{'} (x) = σ (z) (1 - σ (z))

$\sigma'(x) = \sigma(z) (1 - \sigma(z))$

— Pinokyo

Sigmoid'in gradyanı da büyük değişkenlik gösteren girdilerin dağılımını ve / veya 0'dan uzaktaki ortalamaları varsaymakla birlikte bir problem haline gelebilir. ) kaybolan gradyanlara veya düzenli hale getirmenin yeterli olmadığı bazı durumlarda gradyanların patlamasına neden olur.

— Ataxias

3

Greff ve arkadaşlarının LSTM bloğunun resmi. (2015) yazarların vanilya LSTM dedikleri bir varyantı tanımlamaktadır . Hochreiter & Schmidhuber (1997) 'in orijinal tanımından biraz farklıdır. Orijinal tanım, unutkan geçidi ve gözetleme deliği bağlantılarını içermiyordu.

Sabit Hatalı Atlıkarınca terimi, hücre durumunun tekrarlayan bağlantısını göstermek için orijinal makalede kullanılmıştır. Giriş geçidi açıldığında hücre durumunun yalnızca ekleme ile değiştirildiği orijinal tanımı dikkate alın. Hücre durumunun, daha önceki bir aşamadaki hücre durumuna göre gradyanı sıfırdır.

Hata hala CEC'ye çıkış kapısı ve aktivasyon fonksiyonu üzerinden girebilir. Etkinleştirme işlevi, CEC'ye eklenmeden önce hatanın büyüklüğünü biraz azaltır. CEC, hatanın değişmeden akabileceği tek yerdir. Yine, giriş geçidi açıldığında, hata giriş geçidinden, etkinleştirme işlevinden çıkar ve transformasyonu, hatanın büyüklüğünü azaltır.

Bu nedenle, bir LSTM katmanından geri yayılırken ancak CEC'ye girip çıktığında hata azalır. Önemli olan, ne kadar mesafe kat ettiği önemli değil, CEC’de değişmemesidir. Bu, temel RNN'deki problemi, her zaman adımının bir afin dönüşümü ve doğrusal olmayanlığı uygulaması problemini çözer; bu, giriş ve çıkış arasındaki zaman mesafesi ne kadar uzun olursa, hata o kadar küçük olur.

— Seppo Enarvi
kaynak

2

http://www.felixgers.de/papers/phd.pdf Lütfen kesilen hata bölümünün açıklandığı bölüm 2.2 ve 3.2.2'ye bakınız. Hücre hafızasından dışarı sızması durumunda hatayı yaymazlar (örn. Kapalı / aktif bir giriş kapısı varsa), ancak yalnızca o andaki hataya bağlı olarak geçidin ağırlığını güncellerler. Daha sonra geri yayılma sırasında sıfır yapılır. Bu bir tür hacklemedir, ancak bunun nedeni, kapının boyunca hatanın yine de zamanla azaldığı yönünde olmasıdır.

— Suresh
kaynak

7

Bu konuda biraz genişleyebilir misiniz? Şu anda, bağlantı yeri değişirse veya kağıt çevrimdışı duruma getirilirse, cevabın değeri olmayacaktır. En azından, bağlantı çalışmayı bırakırsa kağıdın tekrar bulunmasını sağlayacak tam bir alıntı (referans) vermeye yardımcı olacaktır, ancak bu cevabı kendi kendine içeren kılan kısa bir özet en iyisi olacaktır.

— Silverfish,

2

Kabul edilen cevaba biraz ayrıntı eklemek istiyorum, çünkü bunun biraz daha farklı olduğunu ve nüansın, RNN'ler hakkında ilk öğrenen bir kişi için net olamayacağını düşünüyorum.

Vanilya RNN için, .

\frac{\partial h_{t^{'}}}{\partial h_{t}} = \prod_{k = 1}^{t^{'} - t} w σ^{'} (w h_{t^{'} - k})

$\frac{\partial h_{t'}}{\partial h_{t}} = \prod _{k=1} ^{t'-t} w \sigma'(w h_{t'-k})$

LSTM için, frak

\frac{\partial s_{t^{'}}}{\partial s_{t}} = \prod_{k = 1}^{t^{'} - t} σ (v_{t + k})

$\frac{\partial s_{t'}}{\partial s_{t}} = \prod _{k=1} ^{t'-t} \sigma(v_{t+k})$

sorulması gereken doğal bir soru, her iki ürün toplamının da zamanları ile çarpıldığında gibi bir terim yok mu? $t'-t$
Cevap evet , bu yüzden LSTM de yoksunluk derecelerinde yok olacak, ama neredeyse vanilya RNN kadar değil

Fark vanilya RNN için, gradyan azalırken, LSTM için degrade ile azalır . $w \sigma'(\cdot)$ $\sigma (\cdot)$

LSTM için, olan bazı ağırlık ve girişleri için olduğunu ağırlık vardır . O zaman sinir ağı degradelerin kaybolmasını önlemek için büyük bir öğrenebilir .

σ (\cdot) \approx 1

$\sigma (\cdot) \approx 1$

v_{t + k} = w x

$v_{t+k} = wx$

w

$w$

x

$x$

w

$w$

Örn: 1D durumunda , ise, bozunma faktörü veya gradyan şu şekilde ölür: $x=1$ $w=10$ $v_{t+k}=10$ $\sigma (\cdot) = 0.99995$

(0.99995)^{t^{'} - t}

$(0.99995)^{t'-t}$

Vanilya RNN için, olacak şekilde öğrenilebilecek bir ağırlık seti yoktur.

w σ^{'} (w h_{t^{'} - k}) \approx 1

$w \sigma'(w h_{t'-k}) \approx 1$

örneğin 1D durumunda, olduğunu varsayalım . Fonksiyonu bir maksimuma ulaşır az . Bu, degradenin, gibi bozulmayacağı anlamına gelir. $h_{t'-k}=1$ $w \sigma'(w*1)$ $0.224$ $w=1.5434$

(0.224)^{t^{'} - t}

$(0.224)^{t'-t}$

— Kevin
kaynak