Softmax / Çapraz Entropi ile geri yayılım

40

Geri yayılımın softmax / çapraz entropi çıkış katmanı için nasıl çalıştığını anlamaya çalışıyorum.

Çapraz entropi hata fonksiyonu:

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

sırasıyla nöron hedef ve çıktı olarak $t$ ve ile . Toplam, çıktı katmanındaki her nöronun üzerindedir. , softmax işlevinin bir sonucudur: $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

Yine, toplam, çıktı katmanındaki her bir nöronun üzerindedir ve $z_j$ , nöron girdidir $j$ :

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

Bu, onların karşılık gelen çıkış bir önceki tabakanın tüm nöronlar üzerinde toplamı $o_i$ ve ağırlık $w_{ij}$ nöron doğru $j$ artı bir çapraz $b$ .

Şimdi, bir ağırlık güncelleştirmek için $w_{ij}$ , bir nöron bağlayan $j$ bir nöronun çıkış tabakasında $i$ önceki tabakadaki, Zincir kuralı kullanarak hata fonksiyonu kısmi türevi hesaplamak gerekir:

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

nöron giriş olarak ile . $z_j$ $j$

Son terim oldukça basittir. $i$ ve arasında yalnızca bir ağırlık $j$ olduğundan, türev:

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

İlk terim, hata fonksiyonunun çıktısına göre türetilmesidir $o_j$ :

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

Orta terimi, giriş ile ilgili SoftMax fonksiyonun türetme $z_j$ zor:

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

Diyelim ki sınıflarına karşılık gelen üç çıkış nöronumuz var zaman : $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

ve bölüm kuralı kullanarak türetilmesi:

Geri orta vadede Bu araçlar geri yayılım için

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

Hepsini bir araya koyarak anladım

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

bu, eğer bu sınıfın hedefi , bunun için ağırlıkları güncellemeyeceğim anlamına gelir . Bu doğru gelmiyor. $t_j=0$

Bunu araştırırken, burada veya burada olduğu gibi , softmax türevi için biri, diğeri için iki değişkene sahip olduklarını gördüm . $i=j$ $i\ne j$

Ama bundan bir anlam çıkaramıyorum. Ayrıca benim hatamın nedeni olup olmadığından bile emin değilim, bu yüzden tüm hesaplamalarımı gönderiyorum. Umarım birileri nerede bir şeyleri özlediğimi veya yanlış olduğumu netleştirebilir.

— micha
kaynak

Verdiğiniz bağlantılar, ağırlıklara göre türevi hesaplarken girişe göre türevi hesaplıyor.

— Jenkar

35

Not: Backprop konusunda uzman değilim, ancak şimdi biraz okumaya başladığımda, aşağıdaki uyarının uygun olduğunu düşünüyorum. Sinir ağları üzerine kağıt ya da kitap okurken , türevlerin standart toplama / indeks notasyonu , matris notasyonu ve çok endeks notasyonunun bir karışımı kullanılarak yazılması nadir değildir (tensör-tensör türevleri için son ikisinin bir hibridini içerir) ). Genellikle amaç, bunun "bağlamdan anlaşılması" olması gerektiğidir, bu yüzden dikkatli olmalısınız!

Sizin türevinizde birkaç tutarsızlık olduğunu fark ettim. Gerçekten sinir ağları yapmıyorum, bu nedenle aşağıdaki yanlış olabilir. Ancak, işte sorun hakkında nasıl gideceğim.

Öncelikle, toplamı hesaba katmanız gerekir ve her bir terimin yalnızca bir ağırlığa bağlı olduğunu varsayamazsınız. Böylece gradyeni alarak bileşeni ile ilgili olarak ve , var $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

Ardından, olarak ifade etmek $o_j$ biz var

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

burada

,Kronecker deltasıdır. O zaman softmax paydasının gradyanı

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

verir

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

ya da günlük genişleyen

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

türevi ile ilgili olan Not bu

, birrasgelebileşeni

verir,

terimi (

, yalnızca

).

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

Gradyanı yüzden ile ilgili olarak daha sonra $E$ $z$

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

$t_k$ $o_k$ $t$ $\tau=1$

$o$ $z$ $o$

$y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

$E$ $w$

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

$o_i$ $z$ $y$ $z$ $o$

Umarım bu yardımcı olur. Bu sonuç daha tutarlı görünüyor mu?

$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ $\delta_{ab}$

— GeoMatt22
kaynak

"Backprop / AutoDiff" topluluğunun bu sorunları nasıl yaptığından emin değilim, ancak ne zaman kısayollar almaya çalıştığımı bulurum, hata yapabilirim. Bu yüzden burada yaptığım gibi işlerim, her şeyi tam abonelikle özetlemek için yazmak ve her türev için daima yeni abonelikler sunmak. ( Buradaki

— cevabımdaki gibi

Şahsen, herşeyi yazdığınızı takip etmeyi çok daha kolaylaştırır buluyorum. Sonuçlar bana doğru görünüyor.

— Jenkar

Her bir adımınızı hala tam olarak anlamaya çalışmama rağmen, genel resimle ilgili bana yardımcı olacak bazı değerli görüşler edindim. Sanırım türev ve toplamlar konusunu daha fazla okumam gerekiyor. Fakat E'deki toplamı hesaba katmanızı tavsiye ederek, şunu gördüm:

— micha

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

Fakat başka bir sorum daha var: yerine

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

12

@ GeoMatt22'nin cevabı doğruysa da, sorunu şahsen bir oyuncak örneğine indirmeyi ve resim çizmeyi kişisel olarak çok yararlı buldum:

$h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

$w_{21}$ $w$

$y_1$ $w_{21}$

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

$t_1 + t_2 = 1$ $\mathbf{t}$

— Vivek Subramanian
kaynak

Bu benim için nihayet temizledi! Mükemmel ve Zarif bir açıklama !!!!

— SantoshGupta7

2

Yazımı okumaktan hem zevk aldığınız hem de faydalandığınız için memnunum! Ayrıca yazmam ve açıklamamda yardımcı oldu.

— Vivek Subramanian

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$ yerine ?

— koryakinp

Haklısın - bir yazım hatası oldu! Değişikliği yapacağım.

— Vivek Subramanian

Burada anlamadığım şey, bazı nöronlara da logit (ölçeksiz puanlar) atamanız. (o softmaxed logit (tahminler) ve y sizin durumunuzdaki logit'lerdir). Ancak normalde durum böyle değil, değil mi? Bak bu resimde yani nasıl sen y1 göre o2 kısmi türev bulabilirsiniz nasıl bu durumda mümkündür (o_out1 tahmin ve o_in1 logits olduğunu)?

— ARAT

6

$\{o_i\},\,$ $\{y_i\}$ $\{p_i\}$ $\{o_i\}$

$Y$ $y$

Y = D i a g (y)

$Y={\rm Diag}(y)$

E

$E$

W

$W$

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— dürüst
kaynak

6

İşte biridir en temiz ve iyi yazılmış notlar Ben yaklaşık açıklıyor web'de geldi "çapraz entropi kaybı fonksiyonu ile geri yayılım algoritmasında türevlerinin hesaplanması" .

— yottabytt
kaynak

Verilen pdf'de denklem 22 nasıl denklem 23 oldu? Toplamada (k! = İ) negatif işaret nasıl oluştu gibi. Olumlu bir işaret almalı mı? Gibi Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i)benim anlayışıma göre oluyor edilmelidir.

— faizan

1

İşte softmax ve türevini açıklayan bir link .

İ = j ve i! = J kullanımının nedenini açıklar.

— S. Muhammed H. Mustafa
kaynak

Bağlantının gelecekte kopması durumunda asgari ve bağımsız bir cevap verilmesi önerilir. Aksi takdirde, bu gelecekte diğer kullanıcılara yardımcı olmayabilir.

— luchonacho

0

$t_j$ $o_j$ $o_j$ $i=j$ $i\neq j$

— kuixiong
kaynak