Parti normalizasyonu ile geri yayılımın matris formu

Parti normalizasyonu , derin sinir ağlarında önemli performans iyileştirmeleri ile kredilendirilmiştir. İnternetteki birçok malzeme, aktivasyon bazında nasıl uygulanacağını göstermektedir. Zaten matris cebiri kullanarak backprop uyguladım ve yüksek seviyeli dillerde çalıştığımı Rcpp(yoğun matris çarpımı için (ve sonunda forGPU'lara güvenerek) çalışırken , her şeyi kopyalayıp-döngülere başvurmak muhtemelen kodumu yavaşlatacaktır) büyük bir acıya ek olarak.

Toplu normalizasyon fonksiyonu olan

b (x_{p}) = γ (x_{p} - μ_{x_{p}}) σ_{x_{p}}^{- 1} + β

$b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta$

$x_p$ , etkinleştirilmeden önceki düğümüdür $p$
$\gamma$ ve skaler parametrelerdir $\beta$
$\mu_{x_p}$ ve ortalaması ve . (Varyansın karekökü artı bir geçiştirme faktörünün normal olarak kullanıldığını unutmayın - kompaktlık için sıfır olmayan öğeleri varsayalım) $\sigma_{x_p}$ $x_p$

Matris biçiminde, tüm katmanın toplu normalleştirmesi burada

b (X) = (γ \otimes 1_{p}) ⊙ (X - μ_{X}) ⊙ σ_{X}^{- 1} + (β \otimes 1_{p})

$b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right)$

$\mathbf{X}$ olan $N\times p$
$\mathbf{1}_N$ , bunların sütun vektörüdür
$\gamma$ ve artık katman başına normalleştirme parametrelerinin satır vektörleri $\beta$ $p$
$\mu_{\mathbf{X}}$ ve olan , her sütun a, matrisler, -vector columnwise ortalama ve standart sapma $\sigma_{\mathbf{X}}$ $N \times p$ $N$
$\otimes$ Kronecker ürünü ve elementwise (Hadamard) ürünü $\odot$

normalizasyonu ve sürekli sonucu olmayan çok basit bir tek katmanlı sinir ağı

y = a ({X Γ}_{1}) Γ_{2} + ϵ

$y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + \epsilon$

nerede

$\Gamma_1$ olan $p_1 \times p_2$
$\Gamma_2$ olan $p_2 \times 1$
$a(.)$ etkinleştirme işlevidir

Kayıp , degradeler $R = N^{-1}\displaystyle\sum\left(y - \hat{y}\right)^2$

\begin{array}{lr} \frac{\partial R}{\partial Γ_{1}} = - 2 V^{T} \hat{ϵ} \\ \frac{\partial R}{\partial Γ_{2}} = X^{T} (a^{'} (X Γ_{1}) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}) \end{array}

$\begin{array}{lr} \frac{\partial R}{\partial \Gamma_1} = -2\mathbf{V}^T \hat\epsilon\\ \frac{\partial R}{\partial \Gamma_2} = \mathbf{X}^T \left(a'(\mathbf{X}\mathbf{\Gamma}_1) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T\right) \\ \end{array}$

nerede

$\mathbf{V} = a\left(\mathbf{X}\Gamma_1\right)$
$\hat{\epsilon} = y-\hat{y}$

Toplu normalleştirme altında, net veya Hadamard ve Kronecker ürünlerinin türevlerini nasıl hesaplayacağımı bilmiyorum. Kronecker ürünleri konusunda, literatür oldukça gizlidir.

y = a (b (X Γ_{1})) Γ_{2}

$y = a\left(b\left(\mathbf{X}\Gamma_1\right)\right)\Gamma_2$

y = a ((γ \otimes 1_{N}) ⊙ (X Γ_{1} - μ_{X Γ_{1}}) ⊙ σ_{X Γ_{1}}^{- 1} + (β \otimes 1_{N})) Γ_{2}

$y = a\Big(\left(\gamma\otimes\mathbf{1}_N\right)\odot \left(\mathbf{X\Gamma_1} - \mu_{\mathbf{X\Gamma_1}}\right) \odot\sigma^{-1}_{\mathbf{X\Gamma_1}} + \left(\beta\otimes\mathbf{1}_N\right)\Big)\mathbf{\Gamma_2}$

Matris çerçevesi içinde , ve hesaplamanın pratik bir yolu var mı ? Düğüm başına hesaplamaya başvurmadan basit bir ifade? $\partial R/\partial \gamma$ $\partial R/\partial \beta$ $\partial R/\partial \mathbf{\Gamma_1}$

Güncelleme 1:

Ben - tür anladım . Bu: Bazı R kodları bunun döngüsel yolla eşdeğer olduğunu gösterir. Önce sahte verileri ayarlayın: $\partial R/\partial \beta$

1_{N}^{T} (a^{'} (X Γ_{1}) ⊙ - 2 \hat{ϵ} Γ_{2}^{T})

$\mathbf{1}_{N}^T \left(a'(\mathbf{X}\mathbf{\Gamma}_1) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T\right)$

set.seed(1)
library(dplyr)
library(foreach)

#numbers of obs, variables, and hidden layers
N <- 10
p1 <- 7
p2 <- 4
a <- function (v) {
  v[v < 0] <- 0
  v
}
ap <- function (v) {
  v[v < 0] <- 0
  v[v >= 0] <- 1
  v
}

# parameters
G1 <- matrix(rnorm(p1*p2), nrow = p1)
G2 <- rnorm(p2)
gamma <- 1:p2+1
beta <- (1:p2+1)*-1
# error
u <- rnorm(10)

# matrix batch norm function
b <- function(x, bet = beta, gam = gamma){
  xs <- scale(x)
  gk <- t(matrix(gam)) %x% matrix(rep(1, N))
  bk <- t(matrix(bet)) %x% matrix(rep(1, N))
  gk*xs+bk
}
# activation-wise batch norm function
bi <- function(x, i){
  xs <- scale(x)
  gk <- t(matrix(gamma[i]))
  bk <- t(matrix(beta[i]))
  suppressWarnings(gk*xs[,i]+bk)
}

X <- round(runif(N*p1, -5, 5)) %>% matrix(nrow = N)
# the neural net
y <- a(b(X %*% G1)) %*% G2 + u

Sonra türevleri hesaplayın:

# drdbeta -- the matrix way
drdb <- matrix(rep(1, N*1), nrow = 1) %*% (-2*u %*% t(G2) * ap(b(X%*%G1)))
drdb
           [,1]      [,2]    [,3]        [,4]
[1,] -0.4460901 0.3899186 1.26758 -0.09589582
# the looping way
foreach(i = 1:4, .combine = c) %do%{
  sum(-2*u*matrix(ap(bi(X[,i, drop = FALSE]%*%G1[i,], i)))*G2[i])
}
[1] -0.44609015  0.38991862  1.26758024 -0.09589582

Eşleşiyorlar. Ama hala kafam karıştı, çünkü bunun neden işe yaradığını gerçekten bilmiyorum. @ Mark L. Stone tarafından başvurulan MatCalc notlar türevi söylemek olmalıdır $\beta \otimes \mathbf{1}_N$

\frac{\partial A \otimes B}{\partial A} = (I_{n q} \otimes T_{m p}) (I_{n} \otimes v e c (B) \otimes I_{m})

$\frac{\partial A \otimes B}{\partial A} = \left(I_{nq} \otimes T_{mp}\right)\left(I_n\otimes vec(B) \otimes I_m\right)$ burada , ve , abonelikleri ve boyutlarıdır . , sadece 1 olan komütasyon matrisidir, çünkü her iki giriş de vektörlerdir. Bunu denemek ve yararlı görünmüyor bir sonuç elde:

m

$m$

n

$n$

p

$p$

q

$q$

A

$A$

B

$B$

T

$T$

# playing with the kroneker derivative rule
A <- t(matrix(beta)) 
B <- matrix(rep(1, N))
diag(rep(1, ncol(A) *ncol(B))) %*% diag(rep(1, ncol(A))) %x% (B) %x% diag(nrow(A))
     [,1] [,2] [,3] [,4]
 [1,]    1    0    0    0
 [2,]    1    0    0    0
 snip
[13,]    0    1    0    0
[14,]    0    1    0    0
snip
[28,]    0    0    1    0
[29,]    0    0    1    0
[snip
[39,]    0    0    0    1
[40,]    0    0    0    1

Bu uygun değil. Açıkçası şu Kronecker türev kurallarını anlamıyorum. Bunlara yardım etmek harika olurdu. ve için diğer türevler üzerinde hala takılı - bunlar daha zordur çünkü gibi ek olarak . $\gamma$ $\mathbf{\Gamma_1}$ $\beta \otimes \mathbf{1}$

Güncelleme 2

Ders kitaplarını okurken, ve operatörün kullanılmasını gerektireceğinden oldukça eminim . Ama görünüşe göre onları koda çevirmek için türevleri yeterince takip edemiyorum. Örneğin, türevi alınarak dahil olacak göre , burada (bu an için sabit bir matris olarak değerlendirebiliriz). $\partial R/\partial \Gamma_1$ $\partial R/\partial \gamma$ vec() $\partial R/\partial \Gamma_1$ $w\odot\mathbf{X\Gamma_1}$ $\mathbf{\Gamma_1}$ $w \equiv (\gamma \otimes \mathbf{1}) \odot \sigma_{\mathbf{X\Gamma_1}}^{-1}$

İçgüdülerim basitçe "cevabı demek ki " nedeniyle, ama besbelli değil o işin ile uyumlu değildir . $w\odot\mathbf{X}$ $w$ $\mathbf{X}$

Biliyorum

\partial (A ⊙ B) = \partial A ⊙ B + A ⊙ \partial B

$\partial(A \odot B) = \partial A \odot B + A \odot \partial B$

ve gelen bu , o

\frac{\partial v e c (w ⊙ X Γ_{1})}{\partial v e c (Γ_{1})^{T}} = v e c (X Γ_{1}) I \frac{\partial v e c (w)}{\partial v e c (Γ_{1})^{T}} + v e c (w) I \frac{\partial v e c (X Γ_{1})}{\partial v e c (Γ_{1})^{T}}

$\frac{\partial vec(w \odot \mathbf{X\Gamma_1})}{\partial vec(\mathbf{\Gamma_1})^T} = vec(\mathbf{X\Gamma_1})I\frac{\partial vec(w)}{\partial vec(\mathbf{\Gamma_1})^T} + vec(w)I\frac{\partial vec(\mathbf{X\Gamma_1})}{\partial vec(\mathbf{\Gamma_1})^T}$ Ama bunu nasıl değerlendireceğime emin değilim.

Güncelleme 3

Burada ilerleme kaydediyoruz. Dün gece saat 2'de bu fikirle uyandım. Matematik uyku için iyi değildir.

İşte bazı notasyonel şekerden sonra : $\partial R/\partial \mathbf{\Gamma_1}$

$w \equiv (\gamma \otimes \mathbf{1}) \odot \sigma_{\mathbf{X\Gamma_1}}^{-1}$
$\text{"stub"} \equiv a'(b(\mathbf{X\Gamma}_1)) \odot -2\hat\epsilon \mathbf{\Gamma}_2^T$

Zincir kuralının sonuna geldikten sonra sahip olduklarınız: Bunu döngüsel bir şekilde yaparak başlayın - ve , alt sütunları ve uyumlu bir kimlik matrisidir:

\frac{\partial R}{\partial Γ_{1}} = \frac{\partial w ⊙ {X Γ}_{1}}{\partial Γ_{1}} ("stub")

$\frac{\partial R}{\partial \Gamma_1} = \frac{\partial w \odot \mathbf{X\Gamma}_1}{\partial \Gamma_1}\left(\text{"stub"}\right)$

i

$i$

j

$j$

I

$\mathbf{I}$

\frac{\partial R}{\partial Γ_{i j}} = {(w_{i} ⊙ X_{i})}^{T} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \left(w_i \odot \mathbf{X_i}\right)^T\left(\text{"stub"}_j\right)$

\frac{\partial R}{\partial Γ_{i j}} = {(I w_{i} X_{i})}^{T} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \left(\mathbf{I} w_i \mathbf{X_i}\right)^T\left(\text{"stub"}_j\right)$

\frac{\partial R}{\partial Γ_{i j}} = {X_{i}}^{T} I w_{i} ({"stub"}_{j})

$\frac{\partial R}{\partial \Gamma_{ij}} = \mathbf{X_i}^T\mathbf{I} w_i\left(\text{"stub"}_j\right)$ tl; dr, temel olarak saplamayı batchnorm ölçek faktörleriyle önceden çarpıyorsunuz. Bu eşdeğer olmalıdır:

\frac{\partial R}{\partial Γ} = X^{T} ("stub" ⊙ w)

$\frac{\partial R}{\partial \Gamma} = \mathbf{X}^T\left(\text{"stub"}\odot w\right)$

Ve aslında:

stub <- (-2*u %*% t(G2) * ap(b(X%*%G1)))
w <- t(matrix(gamma)) %x% matrix(rep(1, N)) * (apply(X%*%G1, 2, sd) %>% t %x% matrix(rep(1, N)))
drdG1 <- t(X) %*% (stub*w)

loop_drdG1 <- drdG1*NA
for (i in 1:7){
  for (j in 1:4){
    loop_drdG1[i,j] <- t(X[,i]) %*% diag(w[,j]) %*% (stub[,j])
  }
}

> loop_drdG1
           [,1]       [,2]       [,3]       [,4]
[1,] -61.531877  122.66157  360.08132 -51.666215
[2,]   7.047767  -14.04947  -41.24316   5.917769
[3,] 124.157678 -247.50384 -726.56422 104.250961
[4,]  44.151682  -88.01478 -258.37333  37.072659
[5,]  22.478082  -44.80924 -131.54056  18.874078
[6,]  22.098857  -44.05327 -129.32135  18.555655
[7,]  79.617345 -158.71430 -465.91653  66.851965
> drdG1
           [,1]       [,2]       [,3]       [,4]
[1,] -61.531877  122.66157  360.08132 -51.666215
[2,]   7.047767  -14.04947  -41.24316   5.917769
[3,] 124.157678 -247.50384 -726.56422 104.250961
[4,]  44.151682  -88.01478 -258.37333  37.072659
[5,]  22.478082  -44.80924 -131.54056  18.874078
[6,]  22.098857  -44.05327 -129.32135  18.555655
[7,]  79.617345 -158.71430 -465.91653  66.851965

Güncelleme 4

Burada, sanırım . İlk $\partial R / \partial \gamma$

$\widetilde{\mathbf{X\Gamma}} \equiv \left(\mathbf{X\Gamma} - \mu_{\mathbf{X\Gamma}}\right)\odot \sigma^{-1}_\mathbf{X\Gamma}$
$\tilde\gamma \equiv \gamma \otimes\mathbf{1}_N$

Daha önce olduğu gibi, zincir kuralı sizi Döngü size Daha önce olduğu gibi temel olarak saplamayı önceden çarpıyor. Bu nedenle:

\frac{\partial R}{\partial \tilde{γ}} = \frac{\partial \tilde{γ} ⊙ \tilde{X Γ}}{\partial \tilde{γ}} ("stub")

$\frac{\partial R}{\partial \tilde\gamma} = \frac{\partial \tilde\gamma \odot \widetilde{\mathbf{X\Gamma}}}{\partial \tilde\gamma}\left(\text{"stub"}\right)$

\frac{\partial R}{\partial {\tilde{γ}}_{i}} = (\tilde{X Γ})_{i}^{T} I {\tilde{γ}}_{i} ({"stub"}_{i})

$\frac{\partial R}{\partial \tilde\gamma_i} = (\widetilde{\mathbf{X\Gamma}})_i^T \mathbf{I}\tilde\gamma_i \left(\text{"stub"}_i\right)$

\frac{\partial R}{\partial \tilde{γ}} = (\tilde{X Γ})^{T} ("stub" ⊙ \tilde{γ})

$\frac{\partial R}{\partial \tilde\gamma} = (\widetilde{\mathbf{X\Gamma}})^T \left(\text{"stub"} \odot \tilde\gamma \right)$

Bir çeşit eşleşme:

drdg <- t(scale(X %*% G1)) %*% (stub * t(matrix(gamma)) %x% matrix(rep(1, N)))

loop_drdg <- foreach(i = 1:4, .combine = c) %do% {
  t(scale(X %*% G1)[,i]) %*% (stub[,i, drop = F] * gamma[i])  
}

> drdg
           [,1]      [,2]       [,3]       [,4]
[1,]  0.8580574 -1.125017  -4.876398  0.4611406
[2,] -4.5463304  5.960787  25.837103 -2.4433071
[3,]  2.0706860 -2.714919 -11.767849  1.1128364
[4,] -8.5641868 11.228681  48.670853 -4.6025996
> loop_drdg
[1]   0.8580574   5.9607870 -11.7678486  -4.6025996

Birincideki köşegen, ikincideki vektörle aynıdır. Ancak gerçekten de türev, belirli bir yapıya sahip olsa da, bir matrise göre olduğu için, çıktı aynı yapıya sahip benzer bir matris olmalıdır. Matris yaklaşımının köşegenini almalı ve basitçe mı almalıyım ? Emin değilim. $\gamma$

Görünüşe göre kendi sorumu cevapladım ama doğru olup olmadığımdan emin değilim. Bu noktada, birlikte hacklendiğim şeyi titizlikle kanıtlayan (veya çürüten) bir yanıtı kabul edeceğim.

while(not_answered){
  print("Bueller?")
  Sys.sleep(1)
}

— generic_user
kaynak

Magnus ve Neudecker tarafından yayınlanan "İstatistik ve Ekonometride Uygulamalarla Matris Diferansiyel Hesaplaması" Bölüm 9 bölüm 14, 3. baskı janmagnus.nl/misc/mdc2007-3dition , Kronecker ürünlerinin diferansiyellerini kapsar ve Hadamard ürününün diferansiyeli üzerine bir çalışma ile sonuçlanır. L. Fackler Paul tarafından "Matrix Matematik Üzerine Notlar" www4.ncsu.edu/~pfackler/MatCalc.pdf Kronceker ürünlerini farklılaştırarak üzerinde malzemenin bir yeri vardır

— Mark L. Taş

Referanslar için teşekkürler. Bu MatCalc notlarını daha önce buldum, ancak Hadamard'ı kapsamıyor ve yine de matris dışı hesaptan bir kuralın geçerli olup olmadığından veya matris davasına uygulanmadığından emin değilim. Ürün kuralları, zincir kuralları vb. Kitaba bakacağım. Kendimi kalemle

— doldurmam

Bunu neden yapıyorsun? neden Keras / TensorFlow gibi framewroks kullanmıyorsunuz? Gerçek sorunların çözümünde kullanabileceğiniz bu düşük seviyeli algoritmaları uygulamak için verimli bir zaman kaybı

— Aksakal

Daha doğrusu, hem girdi verilerinin parametrelerdeki doğrusal gösterimleri hem de boyuna / panel yapısı açısından bilinen parametrik yapıyı kullanan ağlar yerleştiriyorum. Oluşturulan çerçeveler, hackleme / değiştirme yeteneğimin ötesinde olacak şekilde çok optimize edilmiştir. Artı matematik genellikle yardımcı olur. Çok sayıda kodonun ne yaptıkları hakkında hiçbir fikri yok. Aynı şekilde Rcppverimli bir şekilde uygulamak için yeterince öğrenme de faydalıdır.

— generic_user

@ MarkL.Stone sadece teorik olarak sağlam değil, pratik olarak kolay! Az çok mekanik bir süreç! &% # $!

— generic_user

Değil tam bir cevap, ama benim yorumunda önerdi göstermek için eğer nerede , ve oluşan bir vektördür, daha sonra olduğunu kaydeden ve , söz konusu bakınız

b (X) = (X - e_{N} μ_{X}^{T}) Γ Σ_{X}^{- 1 / 2} + e_{N} β^{T}

$b(X)=(X−e_N\mu_X^T)ΓΣ_X^{-1/2}+e_N\beta^T$

Γ = d i a g (γ)

$\Gamma=\mathop{\mathrm{diag}}(\gamma)$

Σ_{X}^{- 1 / 2} = d i a g (σ_{X_{1}}^{- 1}, σ_{X_{2}}^{- 1}, \dots)

$\Sigma_X^{-1/2}=\mathop{\mathrm{diag}}(\sigma_{X_1}^{-1},\sigma_{X_2}^{-1},\dots)$

e_{N}

$e_N$

\nabla_{β} R = [- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) J_{X} (a) (I \otimes e_{N})]^{T}

$\nabla_\beta R=[-2\hat{\epsilon}(\Gamma_2^T\otimes I)J_X(a)(I\otimes e_N)]^T$

- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) = v e c (- 2 \hat{ϵ} Γ_{2}^{T})^{T}

$-2\hat{\epsilon}(\Gamma_2^T\otimes I)=\mathop{\mathrm{vec}}(-2\hat{\epsilon}\Gamma_2^T)^T$

J_{X} (a) = d i a g (v e c (a^{'} (b (X Γ_{1}))))

$J_X(a)=\mathop{\mathrm{diag}}(\mathop{\mathrm{vec}}(a^\prime(b(X\Gamma_1))))$

\nabla_{β} R = (I \otimes e_{N}^{T}) v e c (a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}) = e_{N}^{T} (a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T})

$\nabla_\beta R=(I\otimes e_N^T)\mathop{\mathrm{vec}}(a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T)=e_N^T(a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T)$ kimlik ile . Benzer şekilde, burada ("saplama") ve bir

v e c (A X B) = (B^{T} \otimes A) v e c (X)

$\mathop{\mathrm{vec}}(AXB)=(B^T\otimes A)\mathop{\mathrm{vec}}(X)$

\begin{aligned} \nabla_{γ} R & = [- 2 \hat{ϵ} (Γ_{2}^{T} \otimes I) J_{X} (a) (Σ_{X Γ_{1}}^{- 1 / 2} \otimes (X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})) K]^{T} \\ = K^{T} v e c ((X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})^{T} W Σ_{X Γ_{1}}^{- 1 / 2}) \\ = d i a g ((X Γ_{1} - e_{N} μ_{X Γ_{1}}^{T})^{T} W Σ_{X Γ_{1}}^{- 1 / 2}) \end{aligned}

$\begin{align}\nabla_\gamma R&=[-2\hat{\epsilon}(\Gamma_2^T\otimes I)J_X(a)(\Sigma_{X\Gamma_1}^{-1/2}\otimes (X\Gamma_1-e_N\mu_{X\Gamma_1}^T))K]^T\\&=K^T\mathop{\mathrm{vec}}((X\Gamma_1-e_N\mu_{X\Gamma_1}^T)^TW\Sigma^{-1/2}_{X\Gamma_1})\\&=\mathop{\mathrm{diag}}((X\Gamma_1-e_N\mu_{X\Gamma_1}^T)^TW\Sigma^{-1/2}_{X\Gamma_1})\end{align}$

W = a^{'} (b (X Γ_{1})) ⊙ - 2 \hat{ϵ} Γ_{2}^{T}

$W=a^\prime(b(X\Gamma_1))\odot-2\hat{\epsilon}\Gamma_2^T$

K

$K$

N p \times p

$Np\times p$ Kronecker ürününün bir kare matrisin köşegen elemanlarına karşılık gelen sütunlarını seçen ikili matris. Bu, olmasından kaynaklanmaktadır . İlk gradyandan farklı olarak, bu ifade türettiğiniz ifadeye eşdeğer değildir. Bu göz önüne alındığında doğrusal bir fonksiyonu wrt olan , bir faktör olmamalıdır gradyanı içinde. gradyanını , ancak sabit ile türetme için makalenin yazarlarının kaçınmaya çalıştığı "patlamayı" yarattığını söyleyeceğim . Uygulamada, aynı zamanda ve wrt Jacobian'larını bulmanız gerekecektir.

d Γ_{i \neq j} = 0

$d\Gamma_{i\neq j}=0$

b

$b$

γ_{i}

$\gamma_i$

γ_{i}

$\gamma_i$

Γ_{1}

$\Gamma_1$

w

$w$

Σ_{X}

$\Sigma_X$

μ_{X}

$\mu_X$

X

$X$ ve ürün kuralını kullanın.

— deasmhumnha
kaynak