Çoklu LSTM'leri istiflemenin avantajları nelerdir?


25

Avantajları nelerdir, neden biri yan yana yığılmış birden fazla LSTM'yi derin ağda kullanmalı? Bir giriş dizisini tek bir giriş olarak göstermek için bir LSTM kullanıyorum. Öyleyse bir kez bu tek temsilciliği elde ettiğimde neden tekrar geçeyim?

Bunu soruyorum çünkü bunu bir doğal dil oluşturma programında gördüm.


1
Gerçekten LSTM'lerin yatay olarak yan yana istiflendiğini mi kastediyorsunuz?
saat

Yanıtlar:


18

Dikey olarak istiflenmiş LSTM katmanlarına atıfta bulunduğunuzu düşünüyorum (yatay eksenlerin zaman ekseni olduğunu varsayarak).

Bu durumda LSTM'yi istiflemenin ana nedeni, daha yüksek model karmaşıklığına izin vermektir. Basit bir feedforward net olması durumunda, bazı makine öğrenim görevlerinde kullanılacak girdi verilerinin hiyerarşik bir özellik gösterimini oluşturmak için katmanları yığıyoruz. Aynısı, yığılmış LSTM'ler için de geçerlidir.

Her zaman adımında, tekrarlayan giriş dışında, bir LSTM. Girdi zaten bir LSTM katmanından (veya feedforward katmanından) kaynaklanıyorsa, geçerli LSTM geçerli girişin daha karmaşık bir özelliğini temsil edebilir.

Şimdi, özellik girişi ile LSTM katmanı arasında ileri besleyici bir katmana sahip olmak ve başka bir LSTM katmanına sahip olmak arasındaki fark, ileri beslemeli bir katmanın (tam olarak bağlı bir kat demek) önceki zaman adımından geri bildirim almaması ve bu nedenle kesin olarak hesaba katmamasıdır. kalıpları. Yerinde bir LSTM'ye sahip olmak (örneğin, istiflenmiş bir LSTM gösterimi kullanarak) her katmanda daha karmaşık giriş kalıpları tanımlanabilir


4
Bir katman içindeki LSTM hücreleri zaten tamamen, birbirlerine tekrar tekrar bağlanmıştır (bir katmanın çıkışları aynı katmanın tüm girişlerine bağlantılara sahiptir). Bu nedenle, tek tek hücreler zaten hepsi bir katman içinde, diğer hücrelerin çıktılarının üstünde özellikleri bir araya getirebilir. Birden fazla katmanın neden daha karmaşık kalıplarla sonuçlandığını açıklayabilir misiniz?
danijar

6

1'den}:

Daha derin mimarinin kazandığı ilave gücün ne olduğu teorik olarak net olmasa da, derin RNN'lerin bazı görevlerde daha sığ olanlardan daha iyi çalıştığı gözlemlendi. Özellikle, Sutskever ve arkadaşları (2014), 4 katmanlı bir derin mimarinin, enkoder-kod çözücü-çerçeve çerçevesinde iyi bir makine-çeviri performansı elde etmede çok önemli olduğunu bildirmiştir. Irsoy ve Cardie (2014) ayrıca tek katmanlı bir BI-RNN'den birkaç katmana sahip bir mimariye geçmenin sonucu olarak geliştirilmiş sonuçlar bildirmiştir. Diğer birçok çalışma, katmanlı RNN mimarileri kullanarak sonuç bildirir, ancak açıkça 1 katmanlı RNN'lerle karşılaştırmaz.

Bilginize:


Referanslar:


2

Dizi sınıflandırması için LSTM ile oynamak, CNN'lerde artan model kapasitesiyle aynı etkiye sahipti (eğer onlara aşina iseniz). Dolayısıyla, özellikle verilerinizi kullanıyorsanız kesinlikle kazanç elde edersiniz.

Tabii ki aynı zamanda zinde ve daha kötü performans elde edebileceğiniz gibi çift kenarlı. Benim durumumda 1 LSTM'den 2'ye kadar bir yığına gittim ve hemen hemen bir iyileşme elde ettim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.