GRU LSTM üzerinden ne zaman kullanılır?

95

Bir GRU ve bir LSTM arasındaki temel fark, bir GRU’nun iki kapısına ( sıfırlama ve güncelleme kapıları) sahip olmasıdır; oysa, bir LSTM’de üç kapı ( giriş , çıkış ve unutma kapıları) vardır.

LSTM modeli ile ağ üzerinde daha fazla kontrole sahip olduğumuzda neden GRU'dan faydalanıyoruz (üç kapımız olduğu gibi)? Hangi senaryoda GRU LSTM'ye tercih edilir?

neural-network deep-learning

— Sayali Sonawane
kaynak

1

Bir GRU biraz daha az karmaşık olmakla birlikte, performans açısından yaklaşık olarak LSTM kadar iyidir. TensorFlow'da bir uygulama burada bulunur: data-blogger.com/2017/08/27/gru-implementation-tensorflow .

— www.data-blogger.com

64

GRU LSTM ile ilişkilidir, çünkü her ikisi de kaybolma gradyan problemini önlemek için giriş bilgisini kullanıyorsa farklı yollar kullanır. İşte LSTM vs GRU ile ilgili bazı noktalar

GRU, LSTM ünitesi gibi bilgi akışını kontrol eder, ancak bir bellek ünitesi kullanmak zorunda kalmadan kontrol eder . Sadece gizli tüm içeriği kontrol etmeden sunar.
GRU göreceli olarak yeni ve benim açımdan performans LSTM ile aynı, ancak hesaplama açısından daha verimli ( belirtildiği gibi daha az karmaşık yapı ). Bu yüzden daha fazla kullanıldığını görüyoruz.

Ayrıntılı bir açıklama için, bu Araştırma Makalesini inceleyebilirsiniz - Arxiv.org . Kağıt bütün bunları zekice anlatıyor.

Ayrıca, daha iyi bir fikir edinmek için bu blogları keşfedebilirsiniz.

Umarım yardımcı olur!

— Abhishek Jaiswal
kaynak

1

Cevabınız ek olarak GRU ve LSTM ve onların çeşitli permütasyon arasındaki performansını değerlendirmeye güzel kağıt var Google tarafından "tekrarlayan ağ mimarilerinin bir ampirik keşif"

— mineraller

38

* Yukarıda zaten harika cevapları tamamlamak için.

Tecrübelerime göre, GRU'lar daha hızlı eğitim alıyor ve eğer dil modellemesi yapıyorsanız (diğer görevlerden emin değilseniz) daha az eğitim verisiyle LSTM'lerden daha iyi performans gösteriyor .
GRU'lar daha basittir ve bu nedenle değiştirilmesi kolaydır, örneğin ağa ilave giriş yapılması durumunda yeni kapılar ekler. Genel olarak sadece daha az kod.
LSTM'ler teoride GRU'lardan daha uzun sekansları hatırlamalı ve uzun mesafeli ilişkileri modelleme gerektiren görevlerde daha iyi performans göstermelidir.

* GRU'ları ve LSTM'leri analiz eden bazı ek makaleler.

"Sinirsel GPU Algoritmaları Öğreniyor" ((ukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"Doğal Dil İşleme İçin CNN ve RNN'nin Karşılaştırmalı Çalışması" (Wenpeng Yin ve ark. 2017) https://arxiv.org/abs/1702.01923

— mineraller
kaynak

9

Bu cevap aslında veri setinde ve kullanım durumunda yatıyor. Hangisinin daha iyi olduğunu kesin olarak söylemek zor.

GRU, LSTM'den farklı olarak tüm belleği gösterir, bu nedenle avantaj sağlayan diğer uygulamalar faydalı olabilir. Ayrıca, neden GRU kullanılacağını da ekleyerek - sadece 2 kapılı olduğundan ve performansı LSTM ile aynı ise, neden olmasın?
Bu yazı , basit bir RNN üzerinden kapılı ağların üstünlüğünü grafiklerle mükemmel bir şekilde ortaya koymaktadır, ancak ikisinin de daha iyi olduğu sonucuna varamayacağından açıkça söz etmektedir. Bu nedenle, modeliniz olarak kullanmak için kafanız karışırsa, ikinizi de eğitmenizi ve daha iyisini elde etmenizi öneririm.

— Hima Varsha
kaynak

8

TAM GRU Ünitesi

$\tilde{c}_t = \tanh(W_c [G_r * c_{t-1}, x_t ] + b_c)$

$G_u = \sigma(W_u [ c_{t-1}, x_t ] + b_u)$

$G_r = \sigma(W_r [ c_{t-1}, x_t ] + b_r)$

$c_t = G_u * \tilde{c}_t + (1 - G_u) * c_{t-1}$

$a_t = c_t$

LSTM Birimi

$\tilde{c}_t = \tanh(W_c [ a_{t-1}, x_t ] + b_c)$

$G_u = \sigma(W_u [ a_{t-1}, x_t ] + b_u)$

$G_f = \sigma(W_f [ a_{t-1}, x_t ] + b_f)$

$G_o = \sigma(W_o [ a_{t-1}, x_t ] + b_o)$

$c_t = G_u * \tilde{c}_t + G_f * c_{t-1}$

$a_t = G_o * tanh(c_t)$

Denklemlerden görülebileceği gibi, LSTM'lerin ayrı bir güncelleme kapısı vardır ve geçidi unut. Bu açıkça, LSTM'leri daha sofistike hale getirir ancak aynı zamanda daha da karmaşık hale getirir. Özel kullanım durumunuz için hangisinin kullanılacağına karar vermenin basit bir yolu yoktur. Performansı test etmek için her zaman deneme yanılma yapmanız gerekir. Ancak, GRU LSTM'den daha basit olduğundan, GRU'ların eğitilmesi daha az zaman alır ve daha verimli olur.

Kredi: Andrew Ng

— Balboa
kaynak

a^{< t >} = Γ_{o} ⊙ t a n h ({\tilde{c}}^{< t >})

$a^{<t>} = \Gamma_o \odot tanh\left(\tilde c^{<t>}\right)$

1

GRU, LSTM'den daha iyidir, çünkü değiştirmesi kolaydır ve bellek ünitelerine ihtiyaç duymaz, bu nedenle LSTM'den daha hızlı eğitmek ve performansa göre vermek.

— Vivek Khetan
kaynak

12

Lütfen performans iddiasını adil referanslarla destekleyin

— Kari

1

Aslında, temel fark bundan daha fazla ortaya çıkıyor: Uzun kısa vadeli (LSTM) algılayıcılar momentum ve gradyan iniş algoritmaları kullanılarak yapılmıştır. LSTM algılayıcılarını özyinelemeli meslektaşı RNN'leri ile bağdaştırdığınızda, gerçekten sadece genelleştirilmiş bir yinelenen birim veya Gradyan Yinelenen Birim (bağlama bağlı olarak) momentum ve gradyan iniş algoritmalarını daha yakından bütünleştiren GRU ile karşılaşırsınız. Sen olsaydım, AdamOptimizers hakkında daha fazla araştırma yapardım.

GRU bu arada modası geçmiş bir kavram. Bununla birlikte, eğer TF'nin orta-ileri derinlemesine bilgisi istiyorsanız, onu araştırmanızı anlayabilirim.

— Andre Patterson
kaynak

8

Merak ediyorum. Neden GRU'nun modası geçmiş bir kavram olduğunu açıklayabilir misiniz?

— random_user