Peki LSTM ile yakalama nedir?


12

Keras paketi hakkındaki bilgilerimi genişletiyorum ve mevcut bazı modellerle çalışıyorum. Çözmeye çalıştığım ve farklı modeller uyguladığım bir NLP ikili sınıflandırma sorunum var.

Bazı sonuçlarla çalıştıktan ve LSTM hakkında daha fazla okuduktan sonra, bu yaklaşım denediğim her şeyden (birden çok veri kümesinde) çok daha üstün görünüyor. "Ne zaman neden / kendi kendime düşünmeye devam değil LSTM kullanabilir?". LSTM'ye özgü ek kapıların kullanımı, yok olan gradyanlardan muzdarip bazı modellere sahip olduktan sonra benim için mükemmel bir anlam ifade ediyor.

Peki LSTM ile yakalama nedir? Nerede bu kadar iyi yapmıyorlar? Ben "tek beden herkese uyar" algoritması diye bir şey olmadığını biliyorum, bu yüzden LSTM için bir dezavantajı olmalıdır.


GRU'yu deneyin, LSTM gibidirler, ancak daha az bellek gerektirir ve daha hızlı egzersiz yaparlar.
Vivek Khetan

Yanıtlar:


11

LSTM'lerin bazı problemler için çok iyi çalıştığı konusunda haklısınız, ancak bazı dezavantajları şunlardır:

  • LSTM'lerin eğitilmesi daha uzun sürer
  • LSTM'ler eğitmek için daha fazla hafıza gerektirir
  • LSTM'lerin takılması kolaydır
  • LSTM'lerde bırakma uygulaması çok daha zordur
  • LSTM'ler farklı rastgele ağırlık başlangıçlarına duyarlıdır

Bunlar, örneğin 1D dönel ağ gibi daha basit bir modelle karşılaştırılmıştır.

İlk üç öğe, LSTM'lerin daha fazla parametreye sahip olmasından kaynaklanmaktadır.


3
Kabul ediyorum ve bence aşırı uyum (kötü genelleme olarak da bilinir) belki de en büyük risktir. Model doğrulaması yapmak için iyi bir stratejiniz olduğundan emin olun.
tom
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.