Doğrusal regresyonda gradyan iniş için optimum öğrenme oranını belirleme


9

Degrade iniş için optimum öğrenme oranı nasıl belirlenebilir? Maliyet fonksiyonu önceki yinelemeden daha büyük bir değer döndürürse otomatik olarak ayarlayabileceğimi düşünüyorum (algoritma birleşmeyecek), ancak hangi yeni değeri alması gerektiğinden gerçekten emin değilim.


willamette.edu/~gorr/classes/cs449/momrate.html Bir tür yerel hız adaptasyonu ile tavlamayı denemek: µ (t) = µ (0) / (1 + t / T); Hatanın işareti değiştiğinde t artırılır.
Chris

Yanıtlar:


2

(Yıllar sonra) Barzilai-Borwein adım boyutu yöntemine bakın; onmyphd.com güzel bir 3 sayfalık açıklamaya sahip. Yazar diyor

bu yaklaşım büyük boyutlu problemler için bile iyi çalışır

ama 2d Rosenbrock fonksiyonunun uygulaması için korkunç. Barzilai-Borwein kullanan varsa, lütfen yorum yapın.


1

Doğru yoldasın. Yaygın bir yaklaşım, başarılı bir yokuş aşağı adım attığınızda adım boyutunu iki katına çıkarmak ve yanlışlıkla "çok ileri" gittiğinizde adım boyutunu yarıya indirmektir. Elbette 2 dışında bir faktöre göre ölçeklendirebilirsiniz, ancak genellikle büyük bir fark yaratmaz.

Daha sofistike optimizasyon yöntemleri büyük olasılıkla yakınsamayı biraz hızlandıracaktır, ancak kendi güncellemenizi bir nedenden dolayı yuvarlamanız gerekiyorsa, yukarıdakiler çekici bir şekilde basittir ve genellikle yeterince iyidir.


Ben de ikiye çarpmayı / bölmeyi düşünüyordum. Ancak, başarılı bir adımın gerçekleştiği her seferde iki katına çıkmanın çok daha fazla yinelemeyle sonuçlanmasından endişe ediyorum. Eğimin ne kadar dik olduğu hakkında bazı bilgiler sağladığı için, degradeyi kullanarak bunu yapmanın bir yolu olduğunu umuyordum.
Valentin Radu

Bu tür bilgileri gradyandan alabilmeniz bana mantıklı gelmiyor. Degrade tek başına size en uygun olandan ne kadar uzak olduğunuzu ve daha önemlisi ne olduğunu söylemez - degradenin kendisi ne zaman değişir?xdeğiştirir. Bunun için bir Hessian'a ihtiyacınız olacak.
sjm.majewski

Temeldeki sabit bir süreçle uğraşıyorsanız, maksimum öğrenme oranı korelasyon matrisinin spektrumu tarafından yönetilir, değil mi?
parlak yıldız
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.