25

Dışbükey bir maliyet fonksiyonu göz önüne alındığında, optimizasyon için SGD kullanılarak, optimizasyon işlemi sırasında belirli bir noktada bir degradeye (vektör) sahip olacağız.

Sorum şu ki, dışbükeydeki noktaya göre, gradyan yalnızca işlevin en hızlı yükseldiği / azaldığı yönü işaret ediyor mu, yoksa gradyan her zaman maliyet işlevinin en uygun / en yüksek noktasını işaret ediyor mu?

İlki yerel bir kavramdır, ikincisi ise küresel bir kavramdır.

SGD sonunda maliyet fonksiyonunun aşırı değerine yakınlaşabilir. Dışbükey üzerinde rastgele bir nokta verilen degradenin yönü ile küresel aşırı değere işaret eden yön arasındaki farkı merak ediyorum.

Degradenin yönü, fonksiyonun o noktada en hızlı yükseldiği / azaldığı yön olmalıdır, değil mi?

— Tyler 十三将士归玉门
kaynak

6

Hiç bir dağ sırtından dümdüz yokuş aşağı yürüdünüz, yalnızca kendinizi yokuş aşağı ilerleyen bir vadide bulmak için farklı bir yöne gittiniz mi? Buradaki zorluk dışbükey topografyada böyle bir durum hayal etmektir: sırtın en dik olduğu bir bıçak kenarı düşünün.

— whuber

4

Hayır, çünkü bu stokastik degrade iniş, gradyan iniş değil. SGD'nin tüm amacı, artan hesaplama verimliliği karşılığında bazı gradyan bilgilerinin bir kısmını çöpe atmanızdır - ama açıkçası, artık orijinal degradenin yönüne sahip olmayacağınız bazı gradient bilgilerinin bir kısmını çöpe atmak. Bu, normal gradyanın en uygun iniş yönünde işaret edip etmediği konusunu görmezden geliyor, ama mesele, normal gradyan inişini yapsa bile, stokastik gradyan inişini beklemenin bir nedeni yok.

— Chill2Macht

3

@Tyler, neden özellikle stokastik gradyan inişiyle ilgili sorunuz ? Standart gradyan inişine kıyasla bir şekilde farklı bir şey mi hayal ediyorsunuz?

— Sextus Empiricus

2

Gradyan, gradyan ile vektör arasındaki optimum olan açının den daha az bir açıda olacağı ve gradyan yönünde yürürken en küçük bir miktar olacak şekilde gradyanı her zaman en uygun duruma işaret edecektir. Seni optimum seviyeye yaklaştır.

\frac{π}{2}

$\frac{\pi}{2}$

— Monica'yı

5

Degrade doğrudan küresel bir küçültücüye işaret ederse, dışbükey optimizasyon süper kolay olur, çünkü o zaman küresel küçültücü bulmak için tek boyutlu bir satır araması yapabiliriz. Bu umut için çok fazla.

— küçükO

36

Bir görüntünün bin kelimeden daha değerli olduğunu söylüyorlar. Aşağıdaki örnekte (her ikisi de amatör ve profesyonel istatistikçiler için kullanışlı bir araç olan MS Paint'in izniyle) dışbükey bir fonksiyon yüzeyi ve en dik iniş yönünün yönden optimumdan net bir şekilde farklılaştığı bir nokta görebilirsiniz.

Ciddi bir not: Bu konuda ayrıca bir oy hakkı da hak eden çok üstün cevaplar var.

— Jan Kukacka
kaynak

27

Ve bugünün karşı örneği, bir avokado!

— JDL

11

Bir avokado keserken, tohumdan ve olası bir yaralanmadan kaçınmak için en dik iniş yönünde kesim yapmanız gerektiğini görürsünüz .

— Jan Kukacka

28

Degrade iniş yöntemleri , yüzeyin eğimini kullanır .
Bu işlem değil aşırı noktasına doğru doğrudan ille (hatta büyük olasılıkla değil) noktası.

Sezgisel bir görünüm, eğri bir yol olan bir iniş yolunu hayal etmektir. Aşağıdaki örneklere bakınız.

Bir benzetme olarak: Aşırı (düşük) noktaya geri dönme görevi ile sizi bağladığımı ve sizi dağda bir yere koyduğumu hayal edin. Tepede, eğer sadece yerel bilginiz varsa, o zaman gölün dibinin hangi yönde olacağını bilemezsiniz.

Konveksiteyi varsayabilirsin

O zaman sadece bir aşırı nokta olduğunu biliyorsunuz .
Öyleyse aşağı doğru hareket ettiğiniz sürece kesinlikle en uç noktaya ulaşacağınızı biliyorsunuz.
Daha sonra , en dik iniş yönü ile optimum yön arasındaki açının $\pi/2$ , Solomonoff'un yorumlarında belirtildiği gibi her zaman en fazla olduğunu da biliyorsunuz .

Dışbükey olmadan

Açı aşabilir $\pi/2$ . Aşağıdaki resimde, nihai çözümün iniş yönüne dik çizginin arkasında olduğu belirli bir nokta için iniş yönü oku çizilerek vurgulanmaktadır .

Dışbükey problemde bu mümkün değildir. Bu problem dışbükeyken, aynı eğriliğe sahip olan maliyet fonksiyonu için bunu izolinler ile ilişkilendirebilirsiniz.

Stokastik Degrade İnişlerinde

Tek bir nokta için en dik yönü takip edersiniz (ve art arda farklı bir nokta için bir adım atarsınız). Örnekte sorun dışbükeydir, ancak birden fazla çözüm olabilir. Örnekte, aşırı değerler bir çizgide (tek bir nokta yerine) ve bu özel bakış açısından , en dik iniş yönünün doğrudan "optimum" u gösterebileceğini söyleyebilirsiniz (yalnızca işlev için en uygun değer olmasına rağmen). o özel eğitim örnek noktasının)

Aşağıda dört veri noktası için başka bir görünüm verilmiştir . Dört görüntünün her biri farklı bir tek nokta için yüzeyi gösterir. Her adımda, gradyanın hesaplandığı boyunca farklı bir nokta seçilir. Bu, bir basamağın yapıldığı sadece dört yöne sahip olmasını sağlar, ancak çözüme yaklaştığımızda basamak boyutları azalır.

Yukarıdaki resimler, işlev tarafından oluşturulan 4 veri noktası içindir:

y_{i} = e^{- 0.4 x_{i}} - e^{- 0.8 x_{i}} + ϵ_{i}

$y_i = e^{-0.4x_i}-e^{-0.8 x_i} + \epsilon_i$

x = 0      2      4      6           
y = 0.006  0.249  0.153  0.098

hangi sonuçlanır:

(doğrusal olmayan) maliyet işlevini en aza indirdiğimizde dışbükey olmayan bir optimizasyon problemi
$S (a, b) = \sum_{i = 1} {(y_{i} - (e^{- a x_{i}} - e^{- b x_{i}}))}^{2}$ $S(a,b) = \sum_{i=1} \left( y_i - (e^{-ax_i}-e^{-b x_i}) \right)^2$ $\nabla S (a, b) = [\begin{matrix} \sum_{i = 1} 2 x_{i} e^{- a x_{i}} (y_{i} - e^{- a x_{i}} - e^{- b x_{i}}) \\ \sum_{i = 1} - 2 x_{i} e^{- b x_{i}} (y_{i} - e^{- a x_{i}} - e^{- b x_{i}}) \end{matrix}]$ $\nabla S(a,b) = \begin{bmatrix} \sum_{i=1} 2 x_i e^{-a x_i}\left( y_i - e^{-ax_i}-e^{-b x_i} \right) \\ \sum_{i=1} -2 x_i e^{-b x_i}\left( y_i - e^{-ax_i}-e^{-b x_i} \right) \end{bmatrix}$
minimize ettiğimiz dışbükey bir optimizasyon problemi (doğrusal en küçük kareler gibi
$S (a, b) = \sum_{i = 1} {(y_{i} - (a e^{- 0.4 x_{i}} - b e^{- 0.8 x_{i}}))}^{2}$ $S(a,b) = \sum_{i=1} \left( y_i - (a e^{-0.4 x_i}- b e^{-0.8 x_i} )\right)^2$ $\nabla S (a, b) = [\begin{matrix} \sum_{i = 1} - 2 e^{- 0.4 x_{i}} (y_{i} - a e^{- 0.4 x_{i}} - b e^{- 0.8 x_{i}}) \\ \sum_{i = 1} 2 e^{- 0.8 x_{i}} (y_{i} - a e^{- 0.4 x_{i}} - b e^{- 0.8 x_{i}}) \end{matrix}]$ $\nabla S(a,b) = \begin{bmatrix} \sum_{i=1} -2 e^{-0.4x_i}\left( y_i - a e^{-0.4x_i}- b e^{-0.8 x_i} \right) \\ \sum_{i=1} 2 e^{-0.8x_i}\left( y_i - a e^{-0.4x_i}- b e^{-0.8 x_i} \right) \end{bmatrix}$
Dışbükey optimizasyon problemi (ancak tek bir minimum) bazı spesifik için en aza indirmek zaman sahip gradyan Bu çoklu minimuma sahiptir (çok sayıda vardır ve için ) $i$
$S (a, b) = {(y_{i} - (a e^{- 0.4 b x_{i}} - b e^{- 0.8 x_{i}}))}^{2}$ $S(a,b) = \left( y_i - (a e^{-0.4 b x_i}- b e^{-0.8 x_i}) \right)^2$ $\nabla S (a, b) = [\begin{matrix} - 2 e^{- 0.4 x_{i}} (y_{i} - a e^{- 0.4 x_{i}} - b e^{- 0.8 x_{i}}) \\ 2 e^{- 0.8 x_{i}} (y_{i} - a e^{- 0.4 x_{i}} - b e^{- 0.8 x_{i}}) \end{matrix}]$ $\nabla S(a,b) = \begin{bmatrix} -2 e^{-0.4x_i}\left( y_i - a e^{-0.4x_i}- b e^{-0.8 x_i} \right) \\ 2 e^{-0.8x_i}\left( y_i - a e^{-0.4x_i}- b e^{-0.8 x_i} \right) \end{bmatrix}$ $a$ $b$ $S = 0$

StackExchangeStrike tarafından yazıldı.

— Sextus Empiricus
kaynak

17

Objektif fonksiyon güçlü bir şekilde dışbükey olsa bile, en dik iniş verimsiz olabilir .

Sıradan degrade iniş

Demek istediğim, en dik inişin, fonksiyonun dışbükey hatta kuadratik olmasına rağmen çılgınca optimum şekilde salınan adımlar atması anlamında "verimsiz" demek istiyorum.

göz önünde bulundurun . Bu dışbükey, çünkü pozitif katsayıları olan ikinci dereceden bir yapı. İncelemeyle, küresel minimumun . Bu gradyan sahip $f(x)=x_1^2 + 25x_2^2$ $x=[0,0]^\top$

\nabla f (x) = [\begin{matrix} 2 x_{1} \\ 50 x_{2} \end{matrix}]

$\nabla f(x)= \begin{bmatrix} 2x_1 \\ 50x_2 \end{bmatrix}$

öğrenme oranı ve ilk tahminim degrade güncellememiz var $\alpha=0.035$ $x^{(0)}=[0.5, 0.5]^\top,$

x^{(1)} = x^{(0)} - α \nabla f (x^{(0)})

$x^{(1)} =x^{(0)}-\alpha \nabla f\left(x^{(0)}\right)$

Bu çılgınca salınan asgari ilerlemeyi göstermektedir.

Nitekim, ve arasında oluşan açısı sadece kademeli olarak 0'a düşmektedir. Güncellemenin yönü bazen yanlış olabilir - en fazla, neredeyse 68 derece yanlış - algoritma düzgün bir şekilde birleşip çalışsa bile. $\theta$ $(x^{(i)}, x^*)$ $(x^{(i)}, x^{(i+1)})$

Her adım çılgınca salınır çünkü işlev yönünde yönünden çok daha diktir . Bu nedenden ötürü , degradenin her zaman, hatta genel olarak asgari düzeye işaret etmediğini çıkarabiliriz . Bu, Hessian in özdeğerleri farklı ölçeklerde olduğunda, gradyan inişinin genel bir özelliğidir . İlerleme, en küçük özdeğerlere sahip özvektörlere karşılık gelen yönlerde yavaştır ve en büyük özdeğerlere sahip yönlerde en hızlıdır. Degrade inişinin ne kadar hızlı ilerleyeceğini belirleyen öğrenme oranı seçimi ile birlikte bu özellik budur. $x_2$ $x_1$ $\nabla^2 f(x)$

Minimuma giden doğrudan yol, dikey salınımların kuvvetle egemen olduğu bu tarz yerine "çapraz" olarak hareket etmektir. Bununla birlikte, gradyan inişi yalnızca yerel diklik hakkında bilgiye sahiptir, bu nedenle bu stratejinin daha verimli olacağını "bilmez" ve Hessian'ın farklı ölçeklerde özdeğerlere sahip olan vagonlarına tabidir.

Stokastik gradyan iniş

SGD, güncellemelerin gürültülü olması haricinde, kontur yüzeyinin bir yinelemeden diğerine farklı göründüğü ve dolayısıyla gradyanların da farklı olduğu anlamına gelen aynı özelliklere sahiptir. Bu, gradyan adımının yönü ile optimum arasındaki açının da gürültüye sahip olacağı anlamına gelir - sadece bir miktar titremeyle aynı çizimleri hayal edin.

Daha fazla bilgi:

Bu cevap, bu örneği ödünç alır ve Sinir Ağları Tasarımı (2. Basım), Bölüm 9'dan Martin T. Hagan, Howard B. Demuth, Mark Hudson Beale, Orlando De Jesús.

— Sycorax diyor Reinstate Monica
kaynak

13

Yerel en dik yön küresel optimum yön ile aynı değil. Öyle olsaydı, gradyan yönün değişmezdi; çünkü her zaman optimum seviyenize doğru giderseniz, yön vektörünüz her zaman optimum seviyeyi gösterir. Ancak, durum böyle değil. Öyleyse, neden her yinelemede gradyanı hesaplamaya uğraşıyorsun?

— gunes
kaynak

3

Diğer cevaplar, GD / SGD için bazı rahatsız edici yakınlaşma oranlarına dikkat çekiyor, ancak "SGD sonunda birleşebilir ..." yorumunuz her zaman doğru değildir ("kasten" hakkındaki sinsi kullanımı dikkate almamak "irade").

SGD ile karşı örnekler bulmanın güzel bir püf noktası, her veri noktasının aynı olması durumunda, maliyet fonksiyonunuzun belirleyici olduğunu fark etmektir. Bir veri noktamızın ve sistemimizin tek bir parametreye dayanarak nasıl çalışması gerektiğine dair bir modelimizin olduğu son derece patolojik bir örneği hayal edin.

(x_{0}, y_{0}) = (1, 0)

$(x_0,y_0)=(1,0)$

α

$\alpha$

f (x, α) = \sqrt{α^{2} - α x} .

$f(x,\alpha)=\sqrt{\alpha^2-\alpha x}.$

Maliyet fonksiyonumuz olarak MSE ile bu, dışbükey bir işlevi kolaylaştırır . Bizim öğrenme hızı seçmek varsayalım kötü yani bizim güncelleme kuralı gibidir izler:Şimdi, bizim maliyet fonksiyonu en az vardır ama eğer herhangi bir yerinden diğerinden daha başlangıç SGD basitçe başlangıç noktası arasındaki döngü arasındaki sıçrama olacaktır sonra ve ve asla yakınsama .

(f (x_{0}, α) - y_{0})^{2} = α^{2} - α,

$(f(x_0,\alpha)-y_0)^2=\alpha^2-\alpha,$

β

$\beta$

α_{n + 1} = α_{n} - β (2 α_{n} - 1) = α_{n} - (2 α_{n} - 1) = 1 - α_{n} .

$\alpha_{n+1}=\alpha_n-\beta(2\alpha_n-1)=\alpha_n-(2\alpha_n-1)=1-\alpha_n.$

α = \frac{1}{2}

$\alpha=\frac12$ $p=\frac12$

p

$p$

1 - p

$1-p$

Konveksitenin genel SGD için var olan daha kötü davranışları kırmak için yeterli olup olmadığından emin değilim, ancak maliyet fonksiyonunuz için küpler kadar karmaşık fonksiyonlara izin verirseniz, SGD alanın yoğun bir alt kümesinde sıçrayabilir ve asla bir yerde birleşemez. veya herhangi bir döngüye yaklaşın.

SGD ayrıca herhangi bir sonlu uzunluktaki döngüye yaklaşabilir / alabilir, doğru , salınabilir (notasyona tabi değil) ve tonlarca başka patolojik davranışa sahip olabilir. $\infty$ $\pm\infty$

Tüm durumla ilgili ilginç bir şey, girişte rastgele dışbükey işlevler alan ve daha sonra her zaman hızlı bir şekilde küresel asgariye ulaşan (varsa) bir güncelleme kuralı çıkaran sayısız işlev (SGD gibi) olmasıdır. Kavramsal olarak bir sürü var olmasına rağmen, dışbükey optimizasyondaki en iyi girişimlerimizin hepsinde patolojik karşı örnekleri var. Her nasılsa, basit / sezgisel / performanslı bir güncelleme kuralı fikri, kesinlikle doğru bir güncelleme kuralı fikrine karşı geliyor.

— Hans Musgrave
kaynak

1

Bu gözlem için +1. Ancak, bu biraz kötü bir seçimdir ve normal degrade iniş durumunda da kötü olur. Bu iyi bir yorumdur, ancak en dik iniş yolunun çözüme yönelik olup olmaması sorunu ile ilgili değildir, bunun yerine farklı güncellemelere yol açabilecek çok büyük adım boyutları sorunu ile ilgilidir.

β = 1

$\beta=1$

— Sextus Empiricus

1

SGD yakınsama kanıtının azalan bir adım büyüklüğünü varsaydığını unutmayın ...

— Jan Kukacka

@ MartijnWeterings İyi gözlem. Sanırım benim örneğim aslında doğru yöne işaret ediyor. Asla doğru yöne işaret eden ve ayrılmayan 2B bir örnekle güncellemeli miyim?

— Hans Musgrave

@MartijnWeterings Kabul edildi, kötü bir seçim. Herhangi bir için, başarısız olduğu patolojik bir maliyet işlevi vardır . En kolay olanlardan biri

β = 1

$\beta=1$

β > 0

$\beta>0$

β

$\beta$

f (x, α) = \sqrt{\frac{α^{2} - α x}{β}} .

$f(x,\alpha)=\sqrt{\frac{\alpha^2-\alpha x}{\beta}}.$

— Hans Musgrave

@JanKukacka SGD'de de benzer bir kusurdan sıkça karşılaşılan bir değişiklik. Maliyet fonksiyonu bir parabol olmak yerine, işlevini seçersiniz, böylece maliyet fonksiyonu soğutma oranını azaltmak için minimumdan her iki yönde de yeterince hızlı yükselen simetrik bir dışbükey fonksiyondur . Gördüğüm SGD yakınsama kanıtları yalnızca olasılık 1 ile ve maliyet fonksiyonları alanında tipik önlemlerle olasılık 0 ile var olan bu kadar kötü seçilmiş maliyet fonksiyonlarına güveniyor.

f

$f$

β

$\beta$

— Hans Musgrave

2

Belki de bu sorunun cevapları hızlı bir şekilde güncellenmelidir. SGD, dışbükey olmayanlar da dahil olmak üzere küresel bir asgariye benziyor (dışbükey bunun özel bir örneğidir):

SGD, Star-Convex Yolu ile Derin Öğrenmede Küresel Asgari Değere , Anonim Yazarlara , ICLR 2019’da çift kör inceleme altındaki makaleye yaklaşıyor

https://openreview.net/pdf?id=BylIciRcYQ

Yazarlar, SGD'nin nöral ağ eğitiminde sıkça karşılaşılan konveks olmayan optimizasyon problemleri için küresel bir asgariye yakınlaşmasını sağlamıştır. Argüman şu iki önemli özellikten yararlanır: 1) eğitim kaybı sıfır değerine ulaşabilir (yaklaşık olarak); 2) SGD bir yıldız dışbükey yolu izler. Böyle bir bağlamda, SGD uzun zamandır rastgele bir algoritma olarak kabul edilmiş olsa da, makale kendinden belirleyici bir biçimde küresel bir asgariye yaklaştığını ortaya koymaktadır.

Bu olsa bir tuz tuzu ile alınmalıdır. Belge hala inceleniyor.

Yıldız dışbükey yolu kavramı, degradenin her yinelemede nereye işaret edeceğine dair bir ipucu verir.

— Tolga Birdal
kaynak

Dışbükey problemler için Stokastik Gradyan İnişi'ndeki (SGD) gradyan her zaman global aşırı değeri gösterir mi?

Konveksiteyi varsayabilirsin

Dışbükey olmadan

Stokastik Degrade İnişlerinde

Sıradan degrade iniş

Stokastik gradyan iniş