Bunun için kendi cevabımı vermekte kendimi kötü hissediyorum, çünkü belki de Jacobian'ın bir vektöre nasıl indirgenebileceği konusundaki son sezgi hariç, amip ve juampa tarafından oldukça iyi ele geçirilmiş .
Jacobian matrisinin köşegeninin derecesini doğru bir şekilde türetmişsinizdir.
∂hi∂zj=hi(1−hj):i=j
ve amipin dediği gibi, aynı zamanda Yakupyalı'nın köşegen olmayan girişlerini türetmek zorundasınız.
∂hi∂zj=−hihj:i≠j
Bu iki kavram tanımı Kronecker Deltası adı verilen bir yapı kullanılarak kolayca birleştirilebilir , böylece degradenin tanımı
∂hi∂zj=hi(δij−hj)
Yani bir kare matristir[J]ij=hi(δij−hj)
Bu noktaya kadar olan tüm bilgiler zaten amip ve juampa tarafından kapsanmaktadır. Tabii ki sorun, girdi hatalarını zaten hesaplanmış çıktı hatalarından elde etmemiz gerektiğidir . Çıkış hatası gradyanı yana girişlerin her bağlıdır, giriş sonra gradyan olanx i∇hixi
[∇x]k=∑i=1∇hi,k
Yukarıda tanımlanan Jacobian matrisi göz önüne alındığında, bu, matrisin ürünü ve çıktı hata vektörü olarak önemsiz bir şekilde uygulanır:
σl→=Jσl+1→
Softmax katmanı çıkış katınızsa, onu çapraz entropi maliyet modeliyle birleştirmek, hesaplamayı basitleştirmek için basitleştirir
σl→=h⃗ −t⃗
burada etiketlerin vektörüdür ve , softmax işlevinden çıkan çıktıdır. Sadeleştirilmiş form sadece uygun değil, aynı zamanda sayısal kararlılık açısından da son derece kullanışlıdır.→ st⃗ h⃗