Tekrarlayan Bir Sinir Ağında (RNN) Katmanı Unut -

Unut katmanında bir RNN her değişkenlerin boyutlarını anlamaya çalışıyorum, ancak doğru yolda olup olmadığından emin değilim. Bir sonraki resim ve denklem Colah'ın "LSTM Ağlarını Anlamak" adlı blog yazısıdır :

nerede:

, vektörboyutunun girilmesidir $x_t$ $m*1$
vektörboyutunun gizli durumudur $h_{t-1}$ $n*1$
bir birleştirme (örneğin, , ) $[x_t, h_{t-1}]$ $x_t=[1, 2, 3], h_{t-1}=[4, 5, 6]$ $[x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6]$
boyutu ağırlıkları olan matrisi, hücre durumları sayısını (bir ve olan yukarıdaki örnekte, ve 3 hücre durumları, daha sonra varsa matris) $w_f$ $k*(m+n)$ $k$ $m=3$ $n=3$ $w_f=3*3$
boyutu önyargı vektörü, hücre durumlarının sayısı (yana olan , yukarıda bir örnek olarak, daha sonra a, vektörü). $b_f$ $k*1$ $k$ $k=3$ $b_f$ $3*1$

Biz ayarlanırsa olması: $w_f$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix}$

Ve olmalıdır: $b_f$ $[1, 2, 3]$

Daha sonra $W_f . [h_{t-1}, x_t] =$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}] . [\begin{matrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \end{matrix}] = [\begin{matrix} 91 & 175 & 133 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix} . \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \\ \end{bmatrix} =\begin{bmatrix} 91 & 175 & 133\end{bmatrix}$

Sonra, önyargı ekleyebilir $W_f . [h_{t-1}, x_t] + b_f=$

[\begin{matrix} 91 & 175 & 133 \end{matrix}] + [\begin{matrix} 1 & 2 & 3 \end{matrix}] = [\begin{matrix} 92 & 177 & 136 \end{matrix}]

$\begin{bmatrix} 91 & 175 & 133\end{bmatrix} + \begin{bmatrix} 1 & 2 & 3\end{bmatrix}=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

$\frac{1}{1+e^{-x}}$ $x=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

[\begin{matrix} 1 & 1 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 1 & 1\end{bmatrix}$

$C_{t-1}$ $k=3$

Yukarıdaki varsayım doğru mu?

Bu aynı zamanda hücre durumu ve gizli durumun aynı olduğu anlamına mı geliyor?

neural-network rnn

— user1157751
kaynak

Harika bir soru!

tl; dr: Hücre durumu ve gizli durum iki farklı şeydir, ancak gizli durum hücre durumuna bağlıdır ve gerçekten de aynı boyuta sahiptirler.

Daha uzun açıklama

İkisi arasındaki fark aşağıdaki şemadan görülebilir (aynı blogun bir parçası):

Hücre durumu batıdan doğuya tepeden geçen kalın çizgidir. Tüm yeşil bloğa 'hücre' denir.

Önceki zaman adımındaki gizli durum, geçerli zaman adımındaki girişin bir parçası olarak ele alınır.

Ancak, tam bir adım atmadan ikisi arasındaki bağımlılığı görmek biraz daha zor. Bunu başka bir bakış açısı sağlamak için yapacağım, ancak blogdan büyük ölçüde etkilendi. Benim gösterimim aynı olacak ve açıklamamda blogdaki resimleri kullanacağım.

Operasyonların sırasını blogda sunulduklarından biraz farklı düşünmeyi seviyorum. Şahsen, giriş kapısından başlamak gibi. Aşağıda bu bakış açısını sunacağım, ancak blogun bir LSTM hesaplaması kurmanın en iyi yolu olabileceğini ve bu açıklamanın tamamen kavramsal olduğunu unutmayın.

İşte olanlar:

Giriş kapısı

$t$ $x_t$ $h_{t-1}$

$x_t = [1, 2, 3]$ $h_t = [4, 5, 6]$

$x_t$ $h_{t-1}$ $[1, 2, 3, 4, 5, 6]$

$W_i$ $W_i \cdot [x_t, h_{t-1}] + b_i$ $W_i$ $b_i$

Altı boyutlu bir girişten (birleştirilmiş giriş vektörünün uzunluğu) hangi durumların güncelleneceğine dair üç boyutlu bir karara gideceğimizi varsayalım. Bu, 3x6 ağırlık matrisine ve 3x1 bias vektörüne ihtiyacımız olduğu anlamına gelir. Bunlara bazı değerler verelim:

$W_i = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix}$

$b_i = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$

Hesaplama şöyle olacaktır:

$\begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\5 \\6 \end{bmatrix} + \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}$

$i_t = \sigma (W_i \cdot [x_t, h_{t-1}] + b_i)$

$\sigma(x) = \frac{1}{1 + exp(-x)}$ $x$

$\sigma(\begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}) = [\frac{1}{1 + exp(-22)}, \frac{1}{1 + exp(-42)}, \frac{1}{1 + exp(-62)}] = [1, 1, 1]$

İngilizce olarak bu, tüm eyaletlerimizi güncelleyeceğimiz anlamına gelir.

Giriş kapısı ikinci bir kısma sahiptir:

$\tilde{C_t} = tanh(W_C[x_t, h_{t-1}] + b_C)$

Bu bölümün amacı, eğer yaparsak, durumu nasıl güncelleyeceğimizi hesaplamaktır. Bu aşamadaki yeni girdiden hücre durumuna katkıdır. Hesaplama, yukarıda gösterilenle aynı prosedürü izler, ancak sigmoid ünitesi yerine tanh ünitesi ile.

$\tilde{C_t}$ $i_t$

$i_t$ $\tilde{C_t}$

Ardından, sorunuzun en önemli noktası olan unutma kapısı geliyor.

Unutma kapısı

Unutma kapısının amacı, artık ilgili olmayan önceden öğrenilmiş bilgileri kaldırmaktır. Blogda verilen örnek dil tabanlıdır, ancak kayan bir pencere de düşünebiliriz. Bir hastalık salgını sırasında bir bölgedeki bulaşıcı bireylerin sayısı gibi doğal olarak tamsayılarla temsil edilen bir zaman serisini modelliyorsanız, belki de hastalık bir bölgede öldüğünde, hastalığın nasıl ilerleyeceğini düşünerek.

Giriş katmanı gibi, unut katmanı da önceki zaman adımındaki gizli durumu ve geçerli zaman adımındaki yeni girişi alır ve bunları birleştirir. Mesele, neyi unutup neyi hatırlayacağınıza stokastik olarak karar vermektir. Önceki hesaplamada, 1'lerin hepsinin sigmoid katman çıktısını gösterdim, ancak gerçekte 0.999'a daha yakındı ve yuvarlandım.

Hesaplama, giriş katmanında yaptığımız gibi görünüyor:

$f_t = \sigma(W_f [x_t, h_{t-1}] + b_f)$

Bu bize 0 ile 1 arasında değerler içeren 3 boyutlu bir vektör verecektir.

$[0.5, 0.8, 0.9]$

Daha sonra, bu üç bilgiden hangisinin unutulacağı bu değerlere dayanarak stochast karar veriyoruz. Bunu yapmanın bir yolu, birörnek (0, 1) dağılımından bir sayı üretmektir ve bu sayı birimin 'açma' (1, 2 ve 3 üniteleri için 0,5, 0,8 ve 0,9) olasılığından düşükse sırasıyla), o birimi açıyoruz. Bu durumda, bu bilgiyi unuttuğumuz anlamına gelir.

Hızlı not: giriş katmanı ve unut katmanı bağımsızdır. Bahis yapan biri olsaydım, bu paralellik için iyi bir yer olurdu.

Hücre durumunu güncelleme

Şimdi hücre durumunu güncellemek için gereken her şeye sahibiz. Giriş ve unutma kapılarındaki bilgilerin bir kombinasyonunu alıyoruz:

$C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C_t}$

$\circ$

Kenara: Hadamard ürünü

$x_1 = [1, 2, 3]$ $x_2 = [3, 2, 1]$

$x_1 \circ x_2 = [(1 \cdot 3), (2 \cdot 2), (3 \cdot 1)] = [3, 4, 3]$

Kenara çekil.

Bu şekilde, hücre durumuna (girdi) ne eklemek istediğimizi hücre durumundan uzaklaştırmak istediğimiz (unut) ile birleştiririz. Sonuç, yeni hücre durumudur.

Çıkış kapısı

Bu bize yeni gizli durumu verecektir. Esasen çıkış kapısının amacı, sonraki hücre durumunu güncellerken modelin bir sonraki bölümünün hangi bilgileri dikkate almasını istediğimize karar vermektir. Blogdaki örnek yine dildir: isim çoğulsa, sonraki adımdaki fiil çekimleri değişecektir. Bir hastalık modelinde, belirli bir alandaki bireylerin duyarlılığı başka bir alandan farklıysa, bir enfeksiyon alma olasılığı değişebilir.

Çıktı katmanı aynı girişi tekrar alır, ancak güncellenmiş hücre durumunu dikkate alır:

$o_t = \sigma(W_o [x_t, h_{t-1}] + b_o)$

Yine, bu bize bir olasılık vektörü verir. Sonra hesaplıyoruz:

$h_t = o_t \circ tanh(C_t)$

Dolayısıyla, mevcut hücre durumu ve çıkış kapısı, neyin verileceği konusunda anlaşmalıdır.

$tanh(C_t)$ $[0, 1, 1]$ $o_t$ $[0, 0, 1]$ $[0, 0, 1]$

$h_t$ $y_t = \sigma(W \cdot h_t)$

$h_t$

LSTM'lerde birçok varyant var, ancak bu temel unsurları kapsıyor!

— StatsSorceress
kaynak

Cevabınız için teşekkürler! Fazladan bir sorum var, umursamıyorsun. Derin bir sinir ağı derin olabilir, çünkü ReLU'nun türevi 1'dir (Çıktı 0'dan büyükse). Bu hücre için de aynı durum geçerli mi? Tanh ve Sigmoid'in 1'in sabit bir türevine nasıl sahip olabileceğinden emin değilim?

— user1157751

Zevkle! Bir sinir ağı birden fazla gizli katmanı olduğunda 'derin' kabul edilir. Aktivasyon fonksiyonlarının türevleri (tanh, sigmoid, ReLU) ağın nasıl eğitildiğini etkiler. Dediğiniz gibi, ReLU'nun girdisi 0'dan büyükse sabit bir eğime sahip olduğundan, işlevin o bölgesinde bulunuyorsak türevi 1'dir. Tanh ve sigmoid birimlerinin aktivasyon bölgelerinin ortasında olduğumuzda 1'e yakın bir türevi vardır, ancak türevleri sabit olmayacaktır. Belki türevler hakkında ayrı bir blog yazısı

— yapmalıyım

Aktivasyon bölgesinde 1'e yakın türevlerinin bir örneğini gösterebilir misiniz? Türev hakkında konuşan birçok kaynak gördüm ama matematik yapılmadı mı?

— user1157751

İyi fikir, ama bununla ilgili doğru bir yazı yazmam biraz zaman alacak. Bu arada, tanh fonksiyonunun şeklini düşünün - bu uzun bir 'S'. Ortada, türevin en yüksek olduğu yerdir. S'nin düz olduğu yerde (S'nin kuyrukları) türev 0'dır. Bir kaynağı, adı geçen sigmoidlerin maksimum 0.25 türevine sahip olduğunu gördüm, ancak tanh için eşdeğer bir bağım yok.

— İstatistikler

Anlamadığım kısım, x> 0 olan sabit 1 türevi olan ReLU'dan farklıdır, ancak sigmoid ve tanh, her iki türevi için değişken değere sahiptir. Bu nasıl "sabit" olabilir?

— user1157751