Diğerleri olduğundan, ilgili kaynaklar buldum burada ve burada LSTM hücrelerini anlamak için gayet yararlı olduğu. Değerlerin nasıl aktığını ve güncellendiğini anladığımdan eminim ve söz konusu "gözetleme deliği bağlantılarını" vb.
Benim örnekte, her adımda uzunlukta bir giriş vektörü vardır i
ve uzunluktaki bir çıkış vektörü o
burada, o < i
.
Her iki sayfanın gerçekte kapsamadığı şey, bunların nasıl düzenlendiği ve eğitildiği.
2 sorum var:
- Eğitim verilerimde, birçok zaman birimine karşılık gelen çok sayıda giriş / çıkış vektör çiftim var. LSTM'yi tüm verilerle eğittiğimi varsayalım. Daha sonra içinden ayarlanan rastgele uzunluk girişini çalıştırabilir miyim? Demek istediğim, örneğin 2015 ve 2016'nın tamamı için eğitim verilerim varsa, 2017 için ağ üzerinden veri çalıştırabilir miyim? Ya da belki 2017-2020?
- Okuduğum şeye göre, zaman birimi başına bir LSTM hücresim var gibi geliyor, bu yüzden çok fazla zaman birimim varsa, çok sayıda zincirlenmiş LSTM hücresim var. Zincirin uzunluğu, ağ üzerinden çalıştırmak istediğim veri uzunluğuna bağlı olduğundan ve muhtemelen keyfi olduğundan, yalnızca tek bir LSTM hücresini eğitemediğim sürece bunu nasıl eğiteceğimi göremiyorum. zamanlar. Öyleyse, tek bir LSTM hücresini eğitip daha sonra
n
belirli bir giriş vektörü listesi için bunların zincirini birleştirecekmişim gibi görünüyorn
? Tek bir LSTM hücresi bir dizi öğe ve fonksiyon içeriyor olsa da, bu kadar küçük bir şeyde çok fazla bilgi yakalamanın yeterli olmadığı anlaşılıyor mu?
Teşekkürler. Uygulamanın ayrıntılarını anlamama yardımcı olacak (nispeten hızlı bir şekilde) tüketebileceğim başka kaynaklar var mı? Yukarıdaki 2 bağlantı neler olup bittiğine dair harika bir üst düzey resim verdi, ancak bu daha ince ayrıntıları yakalayamadı.