Tekrarlayan Sinir Ağının Yapısı (LSTM, GRU)

10

RNN'lerin mimarisini anlamaya çalışıyorum. Çok yardımcı olan bu öğreticiyi buldum: http://colah.github.io/posts/2015-08-Anlama-LSTMs/

Özellikle bu görüntü:

Bu, ileri beslemeli bir ağa nasıl uyar? Bu görüntü her katmandaki başka bir düğüm mü?

neural-networks lstm

— Adam12344
kaynak

Yoksa her nöronun görünüşü bu mu?

— Adam12344

8

A aslında tam bir katmandır. Katmanın çıktısı $h_t$ , aslında bir softmax katmanına takılabilen nöron çıkışıdır (zaman adımı için bir sınıflandırma istiyorsanız $t$ örneğin) veya daha derine inmek istiyorsanız başka bir LSTM katmanı gibi herhangi bir şey. Bu katmanın girdisi, onu düzenli ileri beslemeli ağdan ayıran şeydir: her iki girişi de alır $x_t$ ve önceki zaman adımında ağın tam durumu (her ikisi de) $h_{t-1}$ ve LSTM hücresindeki diğer değişkenler).

Bunu not et $h_t$ bir vektördür. Bu nedenle, 1 gizli katmanla düzenli bir ileri beslemeli ağ ile bir benzetme yapmak istiyorsanız, A'nın tüm bu nöronların gizli katmandaki yerini alması düşünülebilir (artı yinelenen kısmın ekstra karmaşıklığı).

— felipefg
kaynak

Yapmak

h_{t}

$h_t$ ,

c_{t}

$c_t$ ve

x_{t}

$x_t$ hepsi aynı uzunlukta mi?

— user_1177868

6

Resminizde A, tek bir gizli Nöron içeren tek bir gizli katmandır. Soldan sağa zaman ekseni ve altta her seferinde bir giriş alırsınız. Üstte ağ, katmanlar eklenerek daha da genişletilebilir.

Resminizde görsel olarak gösterildiği gibi (zaman ekseni soldan sağa doğru) bu ağı zamanla açarsanız, her birinde bir T (toplam zaman adımı) gizli katman içeren bir ileri besleme ağı elde edersiniz. orta A bloğunda çizildiği gibi tek düğüm (nöron).

Umarım bu soruya cevap verir.

— Sjoerd
kaynak

3

Bu basit diyagramı nispeten karmaşık bir bağlamda açıklamak istiyorum: seq2seq modelinin dekoderinde dikkat mekanizması.

Aşağıdaki akış diyagramında, $h_0$ için $h_{k-1}$ zaman adımlarıdır (boşluklar için PAD'lerle giriş numarasıyla aynı uzunlukta). Sözcük i (zaman adımı) LSTM nöraline (veya görüntünüzdeki üç hücrenin herhangi biriyle aynı çekirdek hücresine) her koyulduğunda, i'inci çıktısını önceki durumuna ((i-1)) çıktıya göre hesaplar ve i girişi $x_i$ . Bunu kullanarak sorununuzu, yalnızca son testin tüm durumlarının, yalnızca sonuncuyu almak için atılmak yerine dikkat mekanizması için kaydedilmiş olmasından kaynaklandığını gösterdim. Sadece bir nöraldir ve bir katman olarak görülür (higer katmanlarında daha fazla soyut bilgi elde etmek için örneğin bazı seq2seq modellerinde çift yönlü kodlayıcı oluşturmak için çoklu katmanlar istiflenebilir).

L tensörlerinin bir listesi (: num_hidden / şeklin her birine: Daha sonra (embedding_dimention x 1 L kelimelerle ve şeklinin bir vektör olarak temsil edilen her bir) cümle kodlayan NUM_UNITS * 1). Ve kod çözücünün önündeki durum, listedeki her bir öğenin aynı şeklinin cümlesinin gömülmesi ile sadece son vektördür.

Fotoğraf kaynağı: Dikkat Mekanizması

— Lerner Zhang
kaynak