Girdileri ile tek katmanlı bir sinir ağının gradyanını türetmek, zincir kuralında operatör nedir?

Problem şu:

Çapraz entropi kaybı ile giriş -> gizli, gizli -> çıkış için sigmoid kullanarak tek bir gizli katman sinir ağı için giriş katmanına göre degradeyi türetin.

Zincir kuralını kullanarak türetmenin çoğunu geçebilirim ama onları nasıl "zincirleyeceğimiz" konusunda emin değilim.

Bazı gösterimleri tanımlayın

$r = xW_1+b_1$

$h = \sigma\left( r \right)$ , sigmoid işlevidir $\sigma$

$\theta = hW_2+b_2$ ,

$\hat{y} = S \left( \theta \right)$ , softmax işlevidir $S$

$J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i$ , gerçek etiket bir sıcak vektör $y$

Sonra zincir kuralı ile,

\frac{\partial J}{\partial x} = \frac{\partial J}{\partial θ} \cdot \frac{\partial θ}{\partial h} \cdot \frac{\partial h}{\partial r} \cdot \frac{\partial r}{\partial x}

$\frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} \cdot \frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}}$

Bireysel degradeler:

\frac{\partial J}{\partial θ} = (\hat{y} - y)

$\frac{\partial J}{\partial \boldsymbol{\theta}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right)$

\frac{\partial θ}{\partial h} = \frac{\partial}{\partial h} [h W_{2} + b_{2}] = W_{2}^{T}

$\frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} = \frac{\partial}{\partial \boldsymbol{h}} \left[ \boldsymbol{h}W_2 + \boldsymbol{b_2}\right] = W_2^T$

\frac{\partial h}{\partial r} = h \cdot (1 - h)

$\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} = h \cdot \left(1-h\right)$

\frac{\partial r}{\partial x} = \frac{\partial}{\partial x} [x W_{1} + b_{1}] = W_{1}^{T}

$\frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}} = \frac{\partial}{\partial \boldsymbol{x}} \left[ \boldsymbol{x}W_1 + \boldsymbol{b_1}\right] = W_1^T$

Şimdi tanımları birbirine zincirlemeliyiz. Tek değişkenli olarak bu kolaydır, her şeyi birlikte çarparız. Vektörlerde eleman-bilge çarpma veya matris çarpma kullanıp kullanmadığından emin değilim.

\frac{\partial J}{\partial x} = (\hat{y} - y) * W_{2}^{T} \cdot [h \cdot (1 - h)] * W_{1}^{T}

$\frac{\partial J}{\partial \boldsymbol{x}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right) * W_2^T \cdot \left[\boldsymbol{h} \cdot \left(1-\boldsymbol{h}\right)\right] * W_1^T$

Burada vektörlerinin öğeye çoğalmasıdır ve bir matris çoklu olup. Bu işlem kombinasyonu, olması gerektiğini bildiğim boyut vektörü elde etmek için bunları bir araya getirmenin tek yolu . $\cdot$ $*$ $1 \cdot D_x$ $\frac{\partial J}{\partial \boldsymbol{x}}$

Sorum şu: hangi operatörü kullanacağımı anlamanın ilk yolu nedir? Özellikle ve arasında element-bilge bir ihtiyaç ile karıştırılır . $W_2^T$ $h$

Teşekkürler!

neural-networks gradient

— amatsukawa
kaynak

Girdiler için gradyan wrt bulmak sık sık yapılmaz. Ben bu "giriş" kelime vektörleri optimize etmek için seçeneğiniz var, kelime düğün hesaplama için bir yol olduğuna inanıyorum.

— amatsukawa

nasıl didi seni dervie dj / dTheta

— raaj

Yanıtlar:

Bu soruya cevap vermenin anahtarının, elemanlar arası çarpımın aslında kısaca olduğunu ve bu nedenle denklemleri türettiğinizde asla kullanmadığınızı belirtmek olduğuna inanıyorum .

Gerçek çalışma öğeye çarpma bunun yerine sahip bir gradyan standart bir matris çarpım değildir Jacobi , her zaman .

Doğrusal olmama durumunda, doğrusal olmamanın vektör girdisine göre doğrusal olmama vektör çıktısının Jacobian'ı çapraz bir matris olur. Bu nedenle, bu matrisle çarpılan eğimin, doğrusal olmayanlığın girdisine göre doğrusal olmayanlığın tüm kısmi türevlerini içeren bir vektör ile çarpılan kayıp elemanına göre doğrusal olmayanlığın çıktısının gradyanına eşdeğer olduğu doğrudur, ama bu izler Jakobyan varlık Diagonal'a. Karışıklıklarınızı açıklayabilecek öğeye dayalı çarpmaya ulaşmak için Jacobian adımından geçmelisiniz.

Matematik olarak, bazı doğrusal olmayan var , kayıp ve doğrusal olmama bir giriş (herhangi bir tensör olabilir). Doğrusalsızlığın çıktısı --- aynı boyuta sahiptir --- @Logan'ın dediği gibi, aktivasyon fonksiyonu element-wise olarak tanımlanır. $s$ $L$ $x \in \mathbb{R}^{n \times 1}$ $s(x) \in \mathbb{R}^{n \times 1}$

İstediğimiz

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L

$\nabla_{x}L=\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L$

Burada , . Bu Jacobian'ı genişleterek $\dfrac{\partial s(x)}{\partial x}$ $s$

[\begin{matrix} \frac{\partial s (x_{1})}{\partial x_{1}} & \dots & \frac{\partial s (x_{1})}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial s (x_{n})}{x_{1}} & \dots & \frac{\partial s (x_{n})}{\partial x_{n}} \end{matrix}]

$\begin{bmatrix} \dfrac{\partial{s(x_{1})}}{\partial{x_1}} & \dots & \dfrac{\partial{s(x_{1})}}{\partial{x_{n}}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial{s(x_{n})}}{x_{1}} & \dots & \dfrac{\partial{s(x_{n})}}{\partial{x_{n}}} \end{bmatrix}$

Köşegen hariç her yerde sıfır olduğunu görüyoruz. diyagonal öğelerinin bir vektörünü yapabiliriz

D i a g (\frac{\partial s (x)}{\partial x})

$Diag\left(\dfrac{\partial s(x)}{\partial x}\right)$

Ve sonra element-bilge operatörünü kullanın.

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L = D i a g (\frac{\partial s (x)}{\partial x}) \circ \nabla_{s (x)} L

$\nabla_{x}L =\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L =Diag\left(\dfrac{\partial s(x)}{\partial x}\right) \circ \nabla_{s(x)}L$

— user0
kaynak

Bir etkinleştirme işlevine geri orantılı olduğunda, işlemler öğe bazında olur. Özellikle, örneğinizi kullanarak bir geri yayılım türevi ve bir aktivasyon türevidir ve ürünleri elementli bir üründür, . Bunun nedeni, aktivasyon fonksiyonlarının sinir ağında eleman bazında işlemler olarak tanımlanmasıdır. $\delta_2 =(\hat{y}-y)W_2^T$ $a' = h \circ (1 -h)$ $\delta_2 \circ a'$

Bkz. Cs224d ders slaytları sayfa 30, ayrıca yardımcı olabilir.

— Logan
kaynak