GRU LSTM üzerinden ne zaman kullanılır?


95

Bir GRU ve bir LSTM arasındaki temel fark, bir GRU’nun iki kapısına ( sıfırlama ve güncelleme kapıları) sahip olmasıdır; oysa, bir LSTM’de üç kapı ( giriş , çıkış ve unutma kapıları) vardır.

LSTM modeli ile ağ üzerinde daha fazla kontrole sahip olduğumuzda neden GRU'dan faydalanıyoruz (üç kapımız olduğu gibi)? Hangi senaryoda GRU LSTM'ye tercih edilir?


1
Bir GRU biraz daha az karmaşık olmakla birlikte, performans açısından yaklaşık olarak LSTM kadar iyidir. TensorFlow'da bir uygulama burada bulunur: data-blogger.com/2017/08/27/gru-implementation-tensorflow .
www.data-blogger.com

Yanıtlar:


64

GRU LSTM ile ilişkilidir, çünkü her ikisi de kaybolma gradyan problemini önlemek için giriş bilgisini kullanıyorsa farklı yollar kullanır. İşte LSTM vs GRU ile ilgili bazı noktalar

  • GRU, LSTM ünitesi gibi bilgi akışını kontrol eder, ancak bir bellek ünitesi kullanmak zorunda kalmadan kontrol eder . Sadece gizli tüm içeriği kontrol etmeden sunar.
  • GRU göreceli olarak yeni ve benim açımdan performans LSTM ile aynı, ancak hesaplama açısından daha verimli ( belirtildiği gibi daha az karmaşık yapı ). Bu yüzden daha fazla kullanıldığını görüyoruz.

Ayrıntılı bir açıklama için, bu Araştırma Makalesini inceleyebilirsiniz - Arxiv.org . Kağıt bütün bunları zekice anlatıyor.

Ayrıca, daha iyi bir fikir edinmek için bu blogları keşfedebilirsiniz.

Umarım yardımcı olur!


1
Cevabınız ek olarak GRU ve LSTM ve onların çeşitli permütasyon arasındaki performansını değerlendirmeye güzel kağıt var Google tarafından "tekrarlayan ağ mimarilerinin bir ampirik keşif"
mineraller

38

* Yukarıda zaten harika cevapları tamamlamak için.

  • Tecrübelerime göre, GRU'lar daha hızlı eğitim alıyor ve eğer dil modellemesi yapıyorsanız (diğer görevlerden emin değilseniz) daha az eğitim verisiyle LSTM'lerden daha iyi performans gösteriyor .

  • GRU'lar daha basittir ve bu nedenle değiştirilmesi kolaydır, örneğin ağa ilave giriş yapılması durumunda yeni kapılar ekler. Genel olarak sadece daha az kod.

  • LSTM'ler teoride GRU'lardan daha uzun sekansları hatırlamalı ve uzun mesafeli ilişkileri modelleme gerektiren görevlerde daha iyi performans göstermelidir.

* GRU'ları ve LSTM'leri analiz eden bazı ek makaleler.


9

Bu cevap aslında veri setinde ve kullanım durumunda yatıyor. Hangisinin daha iyi olduğunu kesin olarak söylemek zor.

  • GRU, LSTM'den farklı olarak tüm belleği gösterir, bu nedenle avantaj sağlayan diğer uygulamalar faydalı olabilir. Ayrıca, neden GRU kullanılacağını da ekleyerek - sadece 2 kapılı olduğundan ve performansı LSTM ile aynı ise, neden olmasın?
  • Bu yazı , basit bir RNN üzerinden kapılı ağların üstünlüğünü grafiklerle mükemmel bir şekilde ortaya koymaktadır, ancak ikisinin de daha iyi olduğu sonucuna varamayacağından açıkça söz etmektedir. Bu nedenle, modeliniz olarak kullanmak için kafanız karışırsa, ikinizi de eğitmenizi ve daha iyisini elde etmenizi öneririm.

8

TAM GRU Ünitesi

c~t=tanh(Wc[Grct1,xt]+bc)

Gu=σ(Wu[ct1,xt]+bu)

Gr=σ(Wr[ct1,xt]+br)

ct=Guc~t+(1Gu)ct1

at=ct

LSTM Birimi

c~t=tanh(Wc[at1,xt]+bc)

Gu=σ(Wu[at1,xt]+bu)

Gf=σ(Wf[at1,xt]+bf)

Go=σ(Wo[at1,xt]+bo)

ct=Guc~t+Gfct1

at=Gotanh(ct)

Denklemlerden görülebileceği gibi, LSTM'lerin ayrı bir güncelleme kapısı vardır ve geçidi unut. Bu açıkça, LSTM'leri daha sofistike hale getirir ancak aynı zamanda daha da karmaşık hale getirir. Özel kullanım durumunuz için hangisinin kullanılacağına karar vermenin basit bir yolu yoktur. Performansı test etmek için her zaman deneme yanılma yapmanız gerekir. Ancak, GRU LSTM'den daha basit olduğundan, GRU'ların eğitilmesi daha az zaman alır ve daha verimli olur.

Kredi: Andrew Ng


a<t>=Γotanh(c~<t>)

1

GRU, LSTM'den daha iyidir, çünkü değiştirmesi kolaydır ve bellek ünitelerine ihtiyaç duymaz, bu nedenle LSTM'den daha hızlı eğitmek ve performansa göre vermek.


12
Lütfen performans iddiasını adil referanslarla destekleyin
Kari

1

Aslında, temel fark bundan daha fazla ortaya çıkıyor: Uzun kısa vadeli (LSTM) algılayıcılar momentum ve gradyan iniş algoritmaları kullanılarak yapılmıştır. LSTM algılayıcılarını özyinelemeli meslektaşı RNN'leri ile bağdaştırdığınızda, gerçekten sadece genelleştirilmiş bir yinelenen birim veya Gradyan Yinelenen Birim (bağlama bağlı olarak) momentum ve gradyan iniş algoritmalarını daha yakından bütünleştiren GRU ile karşılaşırsınız. Sen olsaydım, AdamOptimizers hakkında daha fazla araştırma yapardım.

GRU bu arada modası geçmiş bir kavram. Bununla birlikte, eğer TF'nin orta-ileri derinlemesine bilgisi istiyorsanız, onu araştırmanızı anlayabilirim.


8
Merak ediyorum. Neden GRU'nun modası geçmiş bir kavram olduğunu açıklayabilir misiniz?
random_user
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.