Adam Optimizer'ın hiper parametrelerinin değerine sağlam olarak kabul edilmesinin nedeni nedir?


24

Deep Learning için Adam optimizerini okuyordum ve Bengio, Goodfellow ve Courville tarafından yazılan Deep Learning adlı yeni kitapta şu cümleyi okudum:

Adam genel olarak hiper parametrelerinin seçimine oldukça sağlam olarak kabul edilir, ancak öğrenme oranının bazen önerilen varsayılan değerden değiştirilmesi gerekir.

eğer bu doğruysa, bu büyük bir sorun çünkü hiper parametre araştırması derin bir öğrenme sisteminin istatistiksel performansında (en azından deneyimlerime göre) gerçekten önemli olabilir. Öyleyse benim sorum şu, Adam Robust neden bu kadar önemli parametrelere sahip? Özellikle ve β 2 ?β1β2

Adam belgesini okudum ve bu parametrelerle neden çalıştıkları ya da neden sağlam oldukları hakkında herhangi bir açıklama yapmıyor. Bunu başka bir yerde haklı mı ediyorlar?

Gazeteyi okurken Ayrıca, nerede çok küçük hiper parametrelerinin sayısı onlar için, denenmiş görünüyor sadece 2 ve için β 2 sadece tek 2x3 hiper parametrelerine çalışırsa bu kapsamlı ampirik çalışma olabilir Nasıl 3. ?β1β2


1
Hak talebinde bulunan kitabın yazarlarına bir e-posta gönderin. Onlara talebin neye dayandığını sorun.
Mark L. Stone

1
@ MarkL.Stone sadece o dedi dedi çünkü soyut dedi. Çok inandırıcı bir argüman. Belki bir dahaki sefere gerçek gazetenin yazarlarına e-posta gönderirim.
Charlie Parker

7
Ve böylece kendini tanıma gerçek oluyor.
Mark L. Stone

@ MarkL.Stone savunmasında, doğru cevap vermekle meşguldü olabilir ve yalnızca 3 yazardan 1 tanesi ile irtibata geçtim. Belki diğerleriyle iletişim kurabilirim ama verilen cevapları vereceklerinden emin değilim (en azından bir tanesi profesördür). DL'deki yutturmaca ile bahse girerim günde 300 e-posta alır.
Charlie Parker

7
Şimdi kitap çıktı, Adam yazarları algoritmalarının ne kadar büyük olduğunu onayladılar. Bana '89 Bay Area depremini hatırlatıyor. Haber radyosu, otoyol çöküşü sırasında meydana gelen ölümlerin sayısının doğrulanmadığını bildirdi - valilikten onay almak istediklerini söyledi. Daha sonra valiyi telefona çağırdılar ve ölümlerin sayısını onaylayıp onaylayamadığını sordular. Öyle duyduğunu söyledi. Radyo istasyonu daha sonra validen onay aldıklarını bildirdi. Valinin, o radyo istasyonunda göründüğü gibi duyduğunu kastettiği ortaya çıktı. Yani, dairesel onay.
Mark L. Stone

Yanıtlar:


7

İddiaya ilişkin kanıtlarla ilgili olarak, iddiayı destekleyen tek kanıtın yazılarında Şekil 4'te bulunabileceğine inanıyorum . Nihai sonuçları , β 2 ve α için farklı değerler altında gösterir .β1β2α

Şahsen, tartışmalarını ikna edici bulmuyorum , özellikle de çeşitli problemlerde sonuç göstermedikleri için. Bu sözlerimle, ben sorunlara çeşitli kullanılan ADAM sahip olduğuna dikkat edecek ve benim kişisel bulgu varsayılan değerler olmasıdır ve β 2 do ile işe yaramaz iyi bir anlaşma olmasına rağmen, şaşırtıcı derecede güvenilmez görünüyor a'dan gereklidir.β1β2 α


5

β1β2

Bu, stok vanilya Stochastic Gradient Descent ile büyük bir tezat oluşturuyor, burada:

  • öğrenme oranları parametre başına değildir, ancak tüm parametreler arasında açıkça uygulanan tek bir küresel öğrenme oranı vardır.
    • (bu arada, verilerin ağlara gönderilmeden önce sık sık beyazlatılmasının, normalleştirilmesinin, parametre başına ideal parametre ağırlıklarını benzer şekilde tutmaya çalışmasının bir nedeni budur)
  • sağlanan öğrenme oranı kullanılan tam öğrenme oranıdır ve zaman içinde uyum göstermeyecektir

Uyarlanabilir öğrenme oranlarına sahip tek optimizer Adam değil. Adam yazısının kendisini belirttiği gibi, hiperparametrelere karşı aşırı duyarsız olan Adagrad ve Rmsprop ile de ilgilidir. Özellikle, Rmsprop oldukça iyi çalışıyor.

Ancak Adam genel olarak en iyisidir. Çok az istisna dışında, Adam ne istersen onu yapar :)

Adam'ın işe yaramayacağı, özellikle çok durağan olmayan bazı dağılımlar için, birkaç tane oldukça patolojik vaka vardır. Bu durumlarda, Rmsprop mükemmel bir bekleme seçeneğidir. Fakat genel olarak konuşursak, çoğu patolojik olmayan vaka için, Adam son derece iyi çalışıyor.


1
β1,β2

Evet, demek istiyorsan, 'neden daha derinlemesine araştırma yapmak için bir fırsat var?', Peki ... belki.
Hugh Perkins

2
bu "daha derin bir soru" değildir. Bu makalenin en önemli noktalarından biri gibi görünüyor, değil mi? Mesele şu ki, işleri "kendi kendine" yapıyor ama sonra sihirli bir şekilde sağlam görünen diğer hiperparametreler var. Benim sorunum bu. Adem'in fikrini yanlış anlamadığım sürece kağıdın özü ile ilgili gibi görünüyor.
Charlie Parker

“Adem'in işe yaramayacağı, özellikle de çok durağan olmayan bazı dağıtımlar için pek çok patolojik durum var.” <- burada referans var mı?
mimoralea

0

ADAM formüllerine baktığımızda, çok sayıda parti yinelemesinden sonra (yaklaşık ~ 400k) orijinal hataya dayalı gradyanın büyüklüğünün, atılan adımda gerçek bir rol oynamamaya başlamasının çok şaşırtıcı olduğu görünüyor. ilgili işaretteki öğrenme oranı konfigürasyon parametresi.
Belki de ADAM, ilk tekrarlamalar / epocs sırasında ağırlık adaptasyonunu basit SGD'den daha iyi kontrol ediyor, ancak ileriye dönük güncelleme biraz saf bir şeye indirgenmiş gibi görünüyor (?) Herhangi biri bunun gerçekten istendiği ve / veya iyi çalışma eğiliminde olduğu konusunda bazı sezgiler sunabilir mi?


Aslında hataya bağlı gradyan büyüklüğünün kendisi başlangıçta bile gerçek bir rol oynamıyor gibi görünüyor. Soru, bu normalleşmenin neden iyi çalıştığı ve DL ve diğer ortak öğrenme modellerine rehberlik eden GD sezgisi ile ne anlama geliyor?
Danny Rosen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.