Stokastik gradyan inişi yerel bir asgari sorundan nasıl kaçınabilir?


Yanıtlar:


22

Stokastik gradyan (SG) algoritması, SG'nin öğrenme hızının SA sıcaklığına bağlı olduğu simüle edilmiş bir tavlama (SA) algoritması gibi davranır. SG'nin getirdiği rastgele veya gürültü, daha iyi bir minimum seviyeye ulaşmak için yerel minimeden kaçmaya izin verir. Tabii ki, öğrenme hızını ne kadar hızlı azalttığınıza bağlıdır. Sinir Ağlarında Stokastik Degrade Öğrenmenin (pdf) bölüm 4.2'sini okuyun , burada daha ayrıntılı olarak açıklanmıştır.


4
İkinci teoremin sadece dışbükey işlevler için sınırlı olduğu bir durum olduğu için Bölüm 4.1'e iyi bakmayın, yalnızca gradyan 0 ile bir noktaya (sonsuz örneklerle) yakınsak olduğunu söyleyebilir. . SGD, dağıtılmış öğrenme gibi daha pratik nedenlerle daha ilginçtir, elbette yerel minimumdan "kaçınacaktır".
nil

2

Stokastik gradyan inişinde, tüm gözlemlemenin aksine parametrelerin her gözlem için tahmin edildiği gibi, normal gradyan inişinde (parti gradyan inişi). Ona çok fazla rastgelelik veren budur. Stokastik gradyan iniş yolu daha fazla yerde dolaşır ve bu nedenle yerel bir minimumun "dışına çıkma" ve küresel bir minimum bulma olasılığı daha yüksektir (Not *). Ancak, stokastik gradyan inişi hala yerel minimumda sıkışabilir.

Not: Öğrenme oranını sabit tutmak yaygındır, bu durumda stokastik degrade iniş yakınsama yapmaz; sadece aynı nokta etrafında dolaşıyor. Bununla birlikte, öğrenme hızı zamanla azalırsa, mesela, yineleme sayısıyla ters orantılıdır, o zaman stokastik gradyan inişi birleşir.


Stokastik gradyan inişinin gerçekten yakınsak olmadığı ve sadece belirli bir nokta etrafında harika olduğu doğru değil. Öğrenme oranı sabit tutulursa böyle olur. Bununla birlikte, öğrenme oranları sıfıra eğilimlidir, çünkü bu şekilde, algoritma dışbükey bir fonksiyonun minimum seviyesine yakın olduğunda, salınımı durdurur ve yakınsar. Stokastik eğimin yakınsama kanıtının anahtarı, öğrenme oranları serisine uygulanan koşullardır. Robbins ve Monro'nun orijinal belgesinin (6) ve (27) denklemlerine bakınız.
clara

2

Önceki cevaplarda daha önce bahsedildiği gibi, her bir örneği tekrarlı olarak değerlendirdiğiniz için stokastik gradyan iniş çok daha gürültülü bir hata yüzeyine sahiptir. Her çağda toplu eğimde inişte küresel asgari düzeye doğru bir adım atarken (eğitim setinin üzerinden geçmek), stokastik eğimde iniş gradyanınızın bireysel adımları, değerlendirilen örneğe bağlı olarak her zaman küresel minimuma işaret etmemelidir.

Bunu iki boyutlu bir örnek kullanarak görselleştirmek için, Andrew Ng'in makine öğrenimi sınıfından bazı figürler ve çizimler.

İlk gradyan inişi:

resim açıklamasını buraya girin

İkincisi, stokastik gradyan inişi:

resim açıklamasını buraya girin

Alttaki kırmızı daire, sabit bir öğrenme oranı kullanıyorsanız stokastik gradyan inişinin küresel minimumun çevresindeki bir alanda "güncellenmeye devam edeceğini" gösterecektir.

Stokastik degrade iniş kullanıyorsanız bazı pratik ipuçları:

1) eğitim setini her çağdan önce karıştırın (veya "standart" varyantta yineleme)

2) küresel asgari seviyeye daha yakın "tavlama" yapmak için uyarlanabilir bir öğrenme oranı kullanmak


Neden her çağdan önce eğitim setini karıştırmak istersiniz? SGD algoritması eğitim örneklerini rastgele seçer.
Vladislavs Dovgalecs

Karıştırma temelde bu eğitim örneklerini rastgele seçmenin bir yoludur. Uygulamalarımda, genellikle her çağdan önce eğitim setini karıştırıyorum ve daha sonra forkarıştırılan setten

2
Hm, wikipedia'da SGD algoritması "değiştirilmeden" olarak tanımlanır, ancak Bottou bunu sizin yaptığınız gibi tarif eder (Bottou, Léon. "Stokastik gradyan kökenli büyük ölçekli makine öğrenmesi." COMPSTAT'2010. Bildiriler. Physica-Verlag HD, 2010. 177-186.) Ve sanırım burada Bottou'ya bu Wikipedia girişinden daha fazla güvenme eğilimindeyim.

4
@xeon Değiştirmeden örneklemenin daha iyi olduğunu savunan bu makaleye göz atın . Anladığım kadarıyla, değiştirilmeden ampirik olarak daha üstün olma eğilimi var, ancak teorik analizler oldukça yakın zamana kadar mevcut değildi.
Dougal

1
@xeon Andrew Ng'in kursundaki PDF slaytlarıma baktım ve Bottou gibi değil Vikipedi'de ("değiştirilmeden" varyant) açıklandığı anlaşılıyor. Buradan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.