Peki LSTM ile yakalama nedir?

Keras paketi hakkındaki bilgilerimi genişletiyorum ve mevcut bazı modellerle çalışıyorum. Çözmeye çalıştığım ve farklı modeller uyguladığım bir NLP ikili sınıflandırma sorunum var.

Bazı sonuçlarla çalıştıktan ve LSTM hakkında daha fazla okuduktan sonra, bu yaklaşım denediğim her şeyden (birden çok veri kümesinde) çok daha üstün görünüyor. "Ne zaman neden / kendi kendime düşünmeye devam değil LSTM kullanabilir?". LSTM'ye özgü ek kapıların kullanımı, yok olan gradyanlardan muzdarip bazı modellere sahip olduktan sonra benim için mükemmel bir anlam ifade ediyor.

Peki LSTM ile yakalama nedir? Nerede bu kadar iyi yapmıyorlar? Ben "tek beden herkese uyar" algoritması diye bir şey olmadığını biliyorum, bu yüzden LSTM için bir dezavantajı olmalıdır.

— I_Play_With_Data
kaynak

GRU'yu deneyin, LSTM gibidirler, ancak daha az bellek gerektirir ve daha hızlı egzersiz yaparlar.

— Vivek Khetan

LSTM'lerin bazı problemler için çok iyi çalıştığı konusunda haklısınız, ancak bazı dezavantajları şunlardır:

LSTM'lerin eğitilmesi daha uzun sürer
LSTM'ler eğitmek için daha fazla hafıza gerektirir
LSTM'lerin takılması kolaydır
LSTM'lerde bırakma uygulaması çok daha zordur
LSTM'ler farklı rastgele ağırlık başlangıçlarına duyarlıdır

Bunlar, örneğin 1D dönel ağ gibi daha basit bir modelle karşılaştırılmıştır.

İlk üç öğe, LSTM'lerin daha fazla parametreye sahip olmasından kaynaklanmaktadır.

— İmran
kaynak

Kabul ediyorum ve bence aşırı uyum (kötü genelleme olarak da bilinir) belki de en büyük risktir. Model doğrulaması yapmak için iyi bir stratejiniz olduğundan emin olun.

— tom