Gradyan inişi her zaman optimum seviyeye yaklaşıyor mu?


21

Degrade inişin minimuma yakınlaşmadığı bir senaryo olup olmadığını merak ediyorum.

Degrade inişin her zaman küresel bir optimumluğa yaklaşacağı garanti edilmez. Ayrıca, adım boyutu çok büyükse, optimumdan farklı olabileceğinin de farkındayım. Ancak, bana öyle geliyor ki, eğer bir optimumdan ayrılırsa, sonunda başka bir optimum seviyeye gidecektir.

Bu nedenle, gradyan inişinin yerel veya küresel bir optimum seviyeye yaklaşması garanti edilecektir. Bu doğru mu? Değilse, lütfen kaba bir karşı örnek verebilir misiniz?


1
Umarım bu bağlantı gelecekte yardımcı olacaktır .. datascience.stackexchange.com/a/28417/35644
Aditya

1
Degrade inişin animasyonunu oluşturan provalar, görüntüler ve kodlar dahil olmak üzere 3 somut ve basit örnek için bu cevaba bakınız
Oren Milman

Yanıtlar:


28

Degrade İniş, en uygun noktaları bulmak için tasarlanmış bir algoritmadır, ancak bu en uygun noktalar mutlaka küresel değildir. Ve evet, yerel bir konumdan ayrıldığı takdirde başka bir optimal noktaya yakınlaşabilir, ancak olasılığı çok fazla değildir. Bunun nedeni, adım büyüklüğünün, optimal bir noktayı geri çekmesini sağlayacak kadar büyük olabileceğidir ve salınım olasılığı yakınsamadan çok daha fazladır.

Degrade iniş hakkında iki temel bakış açısı vardır: makine öğrenme dönemi ve derin öğrenme dönemi. Makine öğrenimi döneminde, gradyan inişinin yerel / küresel optimumu bulacağı düşünülmekteydi, ancak girdi özelliklerinin boyutunun çok fazla olduğu derin öğrenme döneminde, uygulamada tüm özelliklerin orada en uygun değere yerleştirilme olasılığı gösterilmektedir. tek bir noktada çok fazla değildir ve daha ziyade maliyet fonksiyonlarında en uygun yerlere sahip olduğunu görürken, çoğu zaman eyer noktaları gözlenir. Bu, çok fazla veri ile eğitim ve eğitim dönemlerinin derin öğrenme modellerinin diğer algoritmalardan daha iyi performans göstermesine neden olmasının nedenlerinden biridir. Bu nedenle, modelinizi eğitirseniz, bir dolambaçlı yol bulacaktır veya yokuş aşağı gitmenin ve eyer noktalarına yapışmamış olmanın yolunu bulacak, ancak uygun adım boyutlarına sahip olmalısınız.

Daha fazla sezgi için buraya ve buraya göndermenizi öneririm .


3
Kesinlikle. Bu sorunlar her zaman teoride ortaya çıkar, ancak nadiren gerçek uygulamada ortaya çıkar. Çok fazla boyutla, bu bir sorun değil. Bir değişkente yerel bir minimana sahip olacaksınız, ancak başka bir değişkente olmayacaksınız. Ayrıca, mini-grup veya stokastik gradyan inişi, herhangi bir yerel minimayı önlemeye yardımcı olur.
Ricardo Cruz

3
@RicardoCruz evet, katılıyorum efendim
Medya

12

Bahsettiğiniz noktaların yanı sıra (küresel olmayan minimumlara yakınsama ve büyük olasılıkla yakınsak olmayan algoritmalara yol açan büyük adım boyutları), "bükülme aralıkları" da bir sorun olabilir.

Aşağıdaki "yatar koltuk" fonksiyonunu düşünün.

resim açıklamasını buraya girin

Açıkçası, bu, gradyanın 0 vektörü olduğu ortada bir aralık olacak şekilde yapılandırılabilir. Bu aralıkta, algoritma süresiz olarak sıkışabilir. Bükülme noktaları genellikle lokal ekstrema olarak kabul edilmez.



3

[Not 5 Nisan 2019: Makalenin arXiv'de yeni bir versiyonu birçok yeni sonuçla güncellendi. Ayrıca Momentum ve NAG'ın backtracking sürümlerini tanıtıyoruz ve Backtracking Gradient Descent ile aynı varsayımlar altında yakınsamayı kanıtlıyoruz.

Kaynak kodları GitHub'da şu adreste bulabilirsiniz: https://github.com/hank-nguyen/MBT-optimizer

DNN'ye uygulamak için algoritmaları geliştirdik ve MMT, NAG, Adam, Adamax, Adagrad, vb.Gibi son teknoloji algoritmalardan daha iyi performans elde ettik ...

Algoritmalarımızın en özel özelliği otomatik olmalarıdır, ortak uygulama olarak öğrenme oranlarının manuel olarak ince ayarını yapmanıza gerek yoktur. Otomatik ince ayarımız doğada Adem, Adamax, Adagrad, vb. Daha fazla ayrıntı makalede bulunmaktadır.

]

Çok yakın tarihli sonuçlara dayanarak: Bu makaledeki ortak çalışmamda https://arxiv.org/abs/1808.05160

f

Yukarıdakilere dayanarak, derin öğrenmede, mevcut en yeni yöntemlerle eşit olan ve öğrenme oranlarının manuel olarak ayarlanmasını gerektirmeyen yeni bir yöntem önerdik. ( Kısacası , fikir, her bir iterasyonla değişen öğrenme oranlarının stabil hale geldiğini görene kadar, belirli bir süre geri izleme gradyanı inişini çalıştırmanızdır. Bu istikrarı, özellikle de C ^ 2 ve dejenere değil, yukarıda bahsettiğim yakınsama sonucu nedeniyle, bu noktada, standart gradyanlı iniş yöntemine geçersiniz.Daha fazla ayrıntı için lütfen belirtilen kağıda bakınız.Bu yöntem diğer optimal algoritmalara da uygulanabilir .)

Not: Standart degrade iniş yöntemi hakkındaki orijinal sorunuzla ilgili olarak, sadece haritanın türevinin küresel olarak Lipschitz olduğu ve öğrenme hızının standart degrade iniş yönteminin birleştiği kanıtlanmış olduğu durumda bildiklerime kadar. [Bu koşullar yerine getirilmezse, hiçbir yakınsama sonucunun mümkün olmadığını gösteren basit karşı örnekler vardır, bazıları için alıntı yapılan makaleye bakın.] Yukarıda belirtilen makalede, uzun vadede geri izleme degrade iniş yönteminin standart gradyan iniş yöntemi, pratikte standart gradyan iniş yönteminin neden genellikle iyi çalıştığını açıklayan bir açıklama verir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.