Moment tabanlı gradyan iniş ile Nesterov'un hızlandırılmış degrade iniş arasındaki fark nedir?

48

Moment tabanlı gradient iniş aşağıdaki gibi çalışır:

$v=self.momentum*m-lr*g$

burada önceki ağırlık güncellemesidir ve , parametrelerine göre mevcut gradyandır , öğrenme hızıdır ve bir sabittir. $m$ $g$ $p$ $lr$ $self.momentum$

$p_{new} = p + v = p + self.momentum * m - lr * g$

ve Nesterov'un hızlandırılmış gradyan inişi şu şekilde çalışıyor:

$p_{new} = p + self.momentum * v - lr * g$

hangi eşdeğerdir:

$p_{new} = p + self.momentum * (self.momentum * m - lr * g ) - lr * g$

veya

$p_{new} = p + self.momentum^2 * m - (1 + self.momentum) * lr * g$

kaynak: https://github.com/fchollet/keras/blob/master/keras/optimizers.py

Bu yüzden bana göre Nesterov'un hızlandırılmış gradyan inişi sadece geçirgen ağırlık değişim terimi m (düz eski momentuma kıyasla) üzerinde lr * g terimine daha fazla ağırlık veriyor. Bu yorum doğru mu?

optimization gradient-descent

— elma şırası
kaynak

7

Misiniz yazmak için soran çok fazla soruyor?

L A T E X

$\LaTeX$

— Rodrigo de Azevedo,

35

Arech'in Nesterov momentumu ile ilgili cevabı doğrudur, fakat kod aslında aynı şeyi yapar. Bu nedenle, Nesterov yöntemi, terimine daha fazla ağırlık verir ve terimine daha az ağırlık verir . $lr \cdot g$ $v$

Keras'ın uygulanmasının neden doğru olduğunu göstermek için Geoffrey Hinton'un örneğini ödünç alacağım .

Nesterov yöntemi "kumar-> düzeltme" yaklaşımını benimsemiştir. Kahverengi vektör (kumar / atlama), kırmızı vektör (düzeltme) ve yeşil vektör (gerçekte yerleştiğimiz yer). degrade işlevidir.
$v' = m \cdot v - lr \cdot \nabla(w+m \cdot v)$
$w' = w + v'$
$m \cdot v$ $-lr \cdot \nabla(w+m \cdot v)$ $m \cdot v-lr \cdot \nabla(w+m \cdot v)$ $\nabla(\cdot)$

Kod farklı görünür çünkü yeşil vektör yerine kahverengi vektörle hareket eder, çünkü Nesterov yöntemi yalnızca yerine değerlendirmesini gerektirir . Dolayısıyla her adımda istiyoruz $\nabla(w+m \cdot v) =: g$ $\nabla(w)$

bulunduğumuz yere geri dön $(1 \rightarrow 0)$
gereken yere yeşil vektörü takip edin $(0 \rightarrow 2)$
başka bir kumar $(2 \rightarrow 3)$

Keras'ın kısaca yazdığı kod , ve bazı matematik işlemleri yaparız $p' = p + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g$

$\begin{align} p' &= p - m \cdot v + m \cdot v + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g\\ &= p - m \cdot v + m \cdot v - lr \cdot g + m \cdot (m \cdot v - lr \cdot g)\\ &= p - m \cdot v + (m \cdot v-lr \cdot g) + m \cdot (m \cdot v-lr \cdot g) \end{align}$

ve bu tam olarak . Aslında orijinal kod daha kısa bir yol . $1 \rightarrow 0 \rightarrow 2 \rightarrow 3$ $1 \rightarrow 2 \rightarrow 3$

Gerçek tahmini değer (yeşil vektör) olmalıdır, yani yakınsakları öğrenirken yakın olmalıdır . $p - m \cdot v$ $p$

— dontloo
kaynak

2

@youkaichao bunu deneyin youtube.com/watch?v=LdkkZglLZ0Q

— dontloo

13

Bana göre OP'nin sorusu zaten cevaplanmış, ancak momentum ve Klasik Momentum (CM) ile Nesterov'un Hızlandırılmış Gradyanı (NAG) arasındaki fark hakkında başka (umarım sezgisel) bir açıklama yapmaya çalışacağım.

tl; dr
Sonunda resme atlayın.
NAG_ball'un akıl yürütmesi başka bir önemli kısım, ancak geri kalan her şey olmadan anlaşılmasının kolay olacağından emin değilim.

$\theta$ $f(\theta)$

Öte yandan, son zamanlarda bu iki vahşi duyarlı top ortaya çıktı:

(Topların gözlemlenen davranışlarına göre ve kağıda göre Derin öğrenmede başlangıç ve momentumun önemi ile ilgili olarak , 2. bölümde hem CM hem de NAG'yi açıklayan), her topun tam olarak bu yöntemlerden biri gibi davrandığı , ve onlara "CM_ball" ve "NAG_ball" diyoruz:
(NAG_ball gülümsüyor, çünkü son zamanlarda Ders 6c'nin sonunu izledi - Geoffrey Hinton'un momentum yöntemi, Nitish Srivastava ve Kevin Swersky ile birlikte , ve bu yüzden her zamankinden daha fazla inanıyor Davranışı daha az hızlı bulmaya yol açar.)

İşte topları nasıl davranır:

$\theta_t$ $t$ $v_t$ $t$ $\theta_t=\theta_{t-1}+v_t$
$v_t$
- $v_{t-1}$
  $v_{t-1}$
  $\mu$ $0.9 \le \mu <1$ $\mu v_{t-1}$
  $\mu$
- $\epsilon$ $\epsilon>0$
  $\epsilon$
  $g$ $-\epsilon g$
$v_{t} = μ v_{t - 1} - ϵ g$ $v_t=\mu v_{t-1} -\epsilon g$
$v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1})$ $v_{t}=\mu v_{t-1}-\epsilon\nabla f\left(\theta_{t-1}\right)$
$v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1} + μ v_{t - 1})$

NAG_ball muhakeme
- Hangi atlama önce gelirse, Momentum Jump aynı olacaktır.
  Bu yüzden durumu Momentum Jump'imi çoktan yapmış gibi düşünmeliyim ve Slope Jump'ımı yapmak üzereyim.
- Şimdi, Eğim Atlayışım kavramsal olarak buradan başlayacak, ancak Eğim Atlamamın Momentum Atlamadan önce başlamış gibi veya burada başlamış gibi olacağını hesaplamayı seçebilirim.
- $\theta$ $\theta$ $\theta$

$\theta$
$f(\theta)$ $7$

Ek 1 - NAG_ball'un akıl yürütme gösterimi

Alec Radford'un bu büyüleyici gifinde NAG'in CM'den (gif'deki "Momentum") tartışmasız daha iyi performans gösterdiğini görebilirsiniz.
(Asgari yıldızın olduğu yer ve eğriler kontur çizgileridir . Kontur çizgileri ve neden eğime dik oldukları ile ilgili açıklama için , efsanevi 3Blue1'deki video 1 ve 2'ye bakınız .)

Belirli bir anın analizi, NAG_ball'un mantığını gösterir:

(Uzun) mor ok momentum alt basamağıdır.
Saydam kırmızı ok, momentum alt adımından önce başlıyorsa gradyan alt adımıdır.
Siyah ok, momentum alt adımından sonra başlıyorsa gradyan alt adımıdır.
CM koyu kırmızı okun hedefi ile sonuçlanır.
NAG siyah okun hedefi ile sonuçlanacak.

Ek 2 - Yaptığım şeyler / terimler (sezgi uğruna)

CM_ball
NAG_ball
Çift atlama
Momentum Atlama
Momentum hava sürtünmesi nedeniyle kaybedildi
Şev Atlama
Bir topun kargaşası
Dün topları gözlemleyerek

Ek 3 - Yapmadığım terimler

CM ve NAG'in davranış şekli:
- Ben daha çok, makalenin ikinci bölümünde , başlangıçta ve momentumun derin öğrenmedeki önemine değindi .
- Ek olarak, gradyan iniş optimizasyon algoritmalarına genel bakış ( Sebastian Ruder tarafından yazılan blog yazısı) gerçekten CM ve NAG'yi (ve çok daha fazlasını) anlamama yardımcı oldu.
Momentum katsayısı - en azından kağıt tarafından kullanılan bir terim
Öğrenme oranı

— Ören Milman
kaynak

1

Parçayı, "Topların nasıl davrandığı: ..." 'dan "minimum ile minimum arasında (nispeten doğru büyüklükte) yönünde yönlendirmek için" buluyorum. " farkın bir açıklaması olarak mükemmel.

— Poete Maudit

12

Sanmıyorum

Örneğin, Sutskever, Martens ve diğerleri, "Derin öğrenmede başlangıç ve momentumun önemi üzerine" 2013'te Nesterov Momentum (aka Nesterov Accelerated Gradient) özelliklerinin iyi bir açıklaması vardır .

Temel fark, klasik momentumda ilk önce hızınızı düzeltir ve sonra o hıza göre büyük bir adım atarsınız (ve sonra tekrar eder), ancak Nesterov momentumunda ilk önce hız yönüne bir adım atarsınız ve sonra bir hız vektörüne göre bir düzeltme yaparsınız. yeni konumda (daha sonra tekrarlayın).

yani klasik momentum:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) )
W(t+1) = W(t) + vW(t+1)

Nesterov momentumu şu şekilde iken:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) + momentum.*vW(t) )
W(t+1) = W(t) + vW(t+1)

Aslında, bu pratikte büyük bir fark yaratıyor ...

— Arech
kaynak

5

Eklendi: sinir ağları üzerinde bir Stanford kursu, cs231n , adımların başka bir şeklini veriyor:

v = mu * v_prev - learning_rate * gradient(x)   # GD + momentum
v_nesterov = v + mu * (v - v_prev)              # keep going, extrapolate
x += v_nesterov

İşte vhız aka adım aka durum ve mutipik olarak 0.9 ya da öylesine bir momentum faktörüdür. ( v, xve learning_rateçok uzun vektörler olabilir; numpy ile kod aynıdır.)

vilk satırda momentum ile gradyan iniş; v_nesterovtahmin ediyor, devam ediyor. Örneğin, mu = 0.9 ile

v_prev  v   --> v_nesterov
---------------
 0  10  -->  19
10   0  -->  -9
10  10  -->  10
10  20  -->  29

Aşağıdaki tarifin 3 terimi vardır:
yalnız terim 1 düz gradyan iniş (GD),
1 + 2 GD + momentum verir,
1 + 2 + 3 Nesterov GD verir.

$x_t \to y_t$ $y_t \to x_{t+1}$

$\qquad y_t = x_t + m (x_t - x_{t-1}) \quad$ - momentum, yordayıcı
$\qquad x_{t+1} = y_t + h\ g(y_t) \qquad$ - gradyan

$g_t \equiv - \nabla f(y_t)$ $h$

$y_t$

$\qquad y_{t+1} = y_t$
$\qquad \qquad + \ h \ g_t \qquad \qquad \quad$ - gradyan
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$ - adım momentumu
$\qquad \qquad + \ m \ h \ (g_t - g_{t-1}) \quad$ - gradyan momentumu

Son terim, düz momentumlu GD ve Nesterov momentumlu GD arasındaki farktır.

$m$ $m_{grad}$
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$ - adım momentumu
$\qquad \qquad + \ m_{grad} \ h \ (g_t - g_{t-1}) \quad$ - gradyan momentumu

$m_{grad} = 0$ $m_{grad} = m$
$m_{grad} > 0$
$m_{grad} \sim -.1$

$m_t$ $h_t$

(x / [c o n d, 1] - 100) + r i p p l e \times s i n (π x)

$(x / [cond, 1] - 100) + ripple \times sin( \pi x )$

— denis
kaynak

Moment tabanlı gradyan iniş ile Nesterov'un hızlandırılmış degrade iniş arasındaki fark nedir?

NAG_ball muhakeme

Ek 1 - NAG_ball'un akıl yürütme gösterimi

Ek 2 - Yaptığım şeyler / terimler (sezgi uğruna)

Ek 3 - Yapmadığım terimler