Deep Learning için Adam optimizerini okuyordum ve Bengio, Goodfellow ve Courville tarafından yazılan Deep Learning adlı yeni kitapta şu cümleyi okudum:
Adam genel olarak hiper parametrelerinin seçimine oldukça sağlam olarak kabul edilir, ancak öğrenme oranının bazen önerilen varsayılan değerden değiştirilmesi gerekir.
eğer bu doğruysa, bu büyük bir sorun çünkü hiper parametre araştırması derin bir öğrenme sisteminin istatistiksel performansında (en azından deneyimlerime göre) gerçekten önemli olabilir. Öyleyse benim sorum şu, Adam Robust neden bu kadar önemli parametrelere sahip? Özellikle ve β 2 ?
Adam belgesini okudum ve bu parametrelerle neden çalıştıkları ya da neden sağlam oldukları hakkında herhangi bir açıklama yapmıyor. Bunu başka bir yerde haklı mı ediyorlar?
Gazeteyi okurken Ayrıca, nerede çok küçük hiper parametrelerinin sayısı onlar için, denenmiş görünüyor sadece 2 ve için β 2 sadece tek 2x3 hiper parametrelerine çalışırsa bu kapsamlı ampirik çalışma olabilir Nasıl 3. ?