Stokastik gradyan inişini kim icat etti?


36

Degrade iniş ve Stokastik degrade iniş tarihini anlamaya çalışıyorum . Degrade iniş icat edildi Cauchy 1847 yılında dökmek Générale Methode la çözünürlüklü des systèmes d'denklemler simultanées . pp. 536–538 Daha fazla bilgi için buraya bakın .

O zamandan beri gradyan iniş yöntemleri gelişmeye devam etti ve tarihlerini bilmiyorum. Özellikle stokastik degrade inişlerin icadıyla ilgileniyorum.

Bir akademik makalede memnuniyetle karşıladığından daha fazla kullanılabilecek bir referans.


3
Makine öğrenmeden önce SGD'yi öğrendim, bu yüzden her şeyden önce olmuş olmalı
Aksakal

2
Kesin olarak Cauchy, GD'yi makine öğrenmeden önce icat etti, böylece SGC'nin de daha önce icat edildiğine şaşırmam.
DaL

3
Kiefer-Wolfowitz stokastik yaklaşım en.wikipedia.org/wiki/Stochastic_approximation doğrudan gradyanı için "taklit" olmayan başka, bir şekilde en çok.
Mark L. Stone

3
ML’den gelen "Stokastik Gradyan İniş", dışbükey optimizasyondan gelen "Stokastik Alt Gradyan Metodu" ile aynıdır. Ve 1960-1970 yılları arasında Moskova'da SSCB'de subgradients yöntemleri keşfedildi. Belki de ABD'de. Boris Polyak'ın (ağır top yönteminin yazarı olduğu) 1970 yılında (ve tüm insanların) subgradients yöntemleri hakkında düşünmeye başladığını söylediği bir video gördüm. ( Youtube.com/watch?v=2PcidcPxvyk&t=1963s ) ....
bruziuz

Yanıtlar:


27

Stokastik Gradyan İnişine, önce kağıtlarında, bir Stokastik Yaklaşım Yöntemi olan Robbins ve Monro tarafından tarif edildiği gibi Stokastik Yaklaşım gelir . Kiefer ve Wolfowitz daha sonra bir Regresyon Fonksiyonunun Maksimum Stokastik Tahmini ' makalesini yayınladı.Mark Stone tarafından belirtildiği gibi, Stokastik Yaklaşımın ML değişkenine aşina olan insanlara (yani Stokastik Gradyan İnişine) aşina olanlar için daha iyi tanınabilir. 60'lı yıllar bu damar boyunca pek çok araştırma gördü - Dvoretzky, Powell, Blum bugün aldığımız sonuçları yayınladı. Robbins ve Monro yönteminden Kiefer Wolfowitz yöntemine geçmek ve daha sonra Stochastic Gradient Descent'e (regresyon sorunları için) ulaşmak için sorunun yeniden çerçevelenmesi nispeten küçük bir adımdır. Yukarıdaki yazılar, Makine İncelemesi bakış açısından kısa bir tarihsel perspektif sağlayan Nocedal, Bottou ve Curtis tarafından hazırlanan bu yazıda da belirtildiği gibi, Stokastik Degrade İnişin öncülleri olarak geniş çapta belirtilmiştir .

Kushner ve Yin'in Stokastik Yaklaşım ve Özyinelemeli Algoritmalar ve Uygulamaları adlı kitabında nosyonun, 40'lı yıllara kadar kontrol teorisinde kullanıldığını öne sürdüğüne inanıyorum. ne de olsa, ben de bunu doğrulamak için onların kitabına erişimim yok.

Herbert Robbins ve Sutton Monro Stokastik Bir Yaklaşım Yöntemi Matematiksel İstatistiklerin Annals, Vol. 22, No. 3. (Eylül 1951), sayfa 400-407.

J. Kiefer ve J. Wolfowitz Regresyon Fonksiyonunun Azami Stokastik Tahmini Ann. Matematik. Devletçi. Cilt 23, Sayı 3 (1952), 462-466

Leon Bottou ve Frank E. Curtis ve Jorge Büyük Ölçekli Makine Öğrenimi için Nocedal Optimizasyon Yöntemleri , Teknik Rapor, arXiv: 1606.04838


Kesin referanslar verebilir misiniz? Ve SGD'nin icadı için, 40'lı yıllarda olduğu görülüyor, ancak kimin tarafından ve nerede olduğu net değil.
DaL

Şüphesiz 1951'de Stokastik Yaklaşım Algoritmalarıyla yaygın olarak Robbins ve Monro olduğuna inanılıyor . 40'lı yıllarda kontrol teorisi literatüründe benzer bir şey olduğunu duymuştum (dediğim gibi, Kushner ve Yin'den düşünüyorum ama bu kitabı kullanışlı bulmuyorum), ama bu bir yerden başka herkesin Robbins ve Nocedal ve ark. referans verdiğim bağlantı.
David Kozak

Yani şimdi lider adayımız H. Robbins ve S. Monro. Stokastik Bir Yaklaşım Yöntemi. Matematiksel İstatistiklerin Annals, 22 (3): 400-407, 1951., Nocedal, Bottou ve Curtis'in pdfs.semanticscholar.org/34dd/…
dal

Ben bu nedenle SGD'nin kökeni olarak adlandırılır, fakat özetinde (bugün terimlerle aslında soyut), "M (x) 'in x'in monoton bir işlevi olduğu varsayılır, ancak deneyciye bilinmez. M (x) = a denkleminin x = 0 çözümünü bulmak istenir, burada a verilen bir sabittir. " M (x) bilinmiyorsa, biri türetilemez. Belki başka bir antik atadır?
DaL

Bir anlamda kabul etti. Kiefer Wolfowitz bunun analizini kullanarak bugün gördükleri formda daha iyi bilinen kağıtlarını ortaya koydu. Mark Stone tarafından yukarıda belirtildiği gibi. Makalelerini burada bulabilirsiniz: projecteuclid.org/download/pdf_1/euclid.aoms/1177729392 .
David Kozak

14

Görmek

Rosenblatt F. Perceptron: Beyindeki bilgi saklama ve organizasyon için olasılıksal bir model. Psikolojik inceleme. 1958, Kasım; 65 (6): 386.

SGD'nin bundan önce optimizasyon literatüründe icat edilip edilmediğinden emin değilim - muhtemelen öyleydi - ama burada bir algıcıyı eğitmek için SGD uygulamasını açıkladığına inanıyorum.

Sistem pozitif bir güçlendirme durumundaysa, "açık" yanıtları kaynak setlerindeki tüm aktif A birimlerinin değerlerine pozitif bir AV eklenirken, kaynaktaki aktif birimlere negatif bir AV eklenir - "kapalı" yanıt kümeleri.

Bunlara "iki tür güçlendirme" diyor.

Ayrıca bu “iki değerli sistemler” hakkında daha fazla kitabı içeren bir kitaptan da söz ediyor.

Rosenblatt F. Algılayıcı: bilişsel sistemlerde istatistiksel ayrılabilirlik teorisi (Proje Para). Cornell Havacılık Laboratuvarı; 1958.


1
Önümüzde iyi bir adım, teşekkürler! İlk referansı online olarak burada bulabilirsiniz. Citeseerx.ist.psu.edu/viewdoc/… Ben üzerinden gideceğim. Ancak, algoritmayı daha açık ve resmi bulmayı bekliyorum.
DaL

3
Optimizasyon hakkında açıklama için +1. Makine Öğreniminde optimizasyon yapmak için kullanıldığından ve optimizasyon ML'den 40 ya da 50 yıl önce önemli bir hale geldiğinden ve bilgisayarlar aynı zamanda yaklaşık olarak aynı zamanda bu fotoğrafa da girdiler - bu iyi bir ipucu gibi görünüyor.
Wayne

Bu teklifin SGD'yi neden açıkladığını söylediğini anlamıyorum.
amip diyor Reinstate Monica

@ amoeba umarım bir hata yapmıyorum, sadece kağıdı gözden kaçırıyordum, ancak sürekli öğrenme oranı olan sadece SGD olan algı güncellemesini anlatıyor olmasına rağmen.
kullanıcı0

3
Doğru. Ben sadece stokastik yönün, seçtiğiniz alıntıdan açık olmadığını söylüyorum. Yani, "stokastik" GD basitçe güncellemelerin bir seferde bir antrenman numunesi yapıldığı anlamına gelir (mevcut tüm antrenman numunelerini kullanarak hesaplama gradyanı yerine). En.wikipedia.org/wiki/Perceptron#Steps'te verilen algoritma , bu "stokastik" yönü, # 2 adımında hemen netleştirir.
amip diyor Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.