Sinir ağları dışındaki şeyler için degrade olarak uygun olmayan öğrenme oranlarını neden kullanmıyoruz?


14

Derin öğrenme literatürü, degrade inişte sabit olmayan öğrenme oranları kullanarak akıllı hilelerle doludur. Üstel bozunma, RMSprop, Adagrad gibi şeylerin uygulanması kolaydır ve her derin öğrenme paketinde mevcuttur, ancak sinir ağlarının dışında var gibi görünmektedir. Bunun için herhangi bir nedeni var mı? Eğer insanlar umursamıyorlarsa, sinir ağlarının dışına bakmamıza gerek yok mu?


2
Bence çizgi arama veya güven bölgesi yöntemi "sabit olmayan" öğrenme oranlarıdır.
Haitao Du

2
NN'lerden bağımsız olarak geliştirilen birçok sabit olmayan gradyan yöntemi vardır. Barzilai-Borwein GD ve Nesterov GD iki önemli örnektir.
Sycorax, Reinstate Monica

@Sycorax ama aslında günlük olarak NN dışında mı kullanılıyorlar?
Tim

2
@ Zaman diyemem. NN'lerin dışında yerel arama yapmam gerektiğinde, ikinci dereceden yöntemleri kullanma lüksüne sahibim. Ancak arka cebimde sevimli bir numara yapabileceğim için daha hızlı GD yöntemleri hakkında bilgi edinmek için heyecanlandım.
Sycorax, Reinstate Monica

1
GBM'lerin sürekli öğrenme oranları kullanmadığı, bir şekilde insanların sürprizine yönelik vakalarla karşılaştığımı belirtmek gerekir. Özel bir örnek, DART'ın LightGBM üzerinde uygulanmasıdır. Orijinal belgeler giderek daha küçük bir LR kullanmazken, gerçek uygulama varsayılan olarak bunu yapar.
usεr11852

Yanıtlar:


16

Yasal Uyarı: Sinir ağları dışında optimizasyon konusunda çok fazla deneyimim yok, bu yüzden cevabım açıkça önyargılı olacak, ancak rol oynayan birkaç şey var:

  • (Derin) sinir ağlarının birçok parametresi vardır . Bunun birkaç anlamı vardır:

    Birincisi, sadece Hessian ve daha yüksek türevlerin hesaplanması olanaksız hale geldiğinden, üst düzey yöntemleri dışlar. Diğer alanlarda bu, SGD'ye yapılan herhangi bir değişiklikten daha iyi geçerli bir yaklaşım olabilir.

    İkincisi, SGD harika olmasına rağmen , pratik olarak yavaş olma eğilimindedir. Bu geliştirilmiş SGD varyantları temel olarak daha hızlı eğitim sağlarken, SGD'nin bazı güzel özelliklerini de kaybedebilir . Diğer alanlarda, SGD eğitim süresi darboğaz olmayabilir, bu nedenle hızlandırılarak elde edilen iyileştirmeler göz ardı edilebilir.

  • Sinir ağlarının (derin) eğitimi dışbükey olmayan bir optimizasyondur ve bu alanda önemli dışbükey gevşeme sonuçlarının farkında değilim. Diğer alanlardan farklı olarak, sinir ağları, küresel olarak en uygun çözümlere odaklanmaz, bu da optimizasyon sırasında kayıp yüzeyinin özelliklerini ve geçişini iyileştirmek için daha fazla çaba harcanmasına yol açar.

    Diğer alanlarda, dışbükey gevşemenin kullanılması ve küresel olarak optimal çözümlerin elde edilmesi, optimizasyon algoritması yerine ilginin merkezinde olabilir, çünkü sorun bir dışbükey problem olarak tanımlandığında, optimizasyon algoritmasının seçimi çözümün kalitesini artıramaz .

Sanırım bu cevap olası tüm yönleri kapsamıyor ve ben de diğer düşünceleri merak ediyorum.


Yani temelde diğer problemlerin çok daha basit olduğunu söylüyorsunuz, bu yüzden hilelere ihtiyacınız yok ve vanilya SGD onlar için yeterli mi?
Tim

3
Bu benim mesajımı basitleştiriyor. 1) bazı sorunlar yüksek sipariş yöntemleri kullanabilirsiniz, adaptif SGD gerek yok. 2) Amdahl yasası nedeniyle bazı problemler SGD iyileştirmesinden yararlanamaz. 3) bazı problemler dışbükey çözümler sunabilir ve ana zorluk onları dışbükey olarak poz etmektir. Bunların hiçbiri, diğer sorunların derin öğrenmeden çok daha basit olduğunu söylemiyor, bunun yerine SGD'yi geliştirmenin neden dikkatlerinin merkezinde olmadığını açıklıyor.
Jan Kukacka

Olası bir nokta 4: Başka bir yöntem aldıysanız ve bunu karmaşık gradyan iniş yöntemlerinden faydalanmak için yeterince karmaşık hale getirdiyseniz (yüksek boyutlu, doğrusal olmayan, dışbükey olmayan), buna muhtemelen sinir ağı denir.
Nathaniel

1
@JanKukacka Biliyorum, cevabınız dolaylı olduğu için açıklama arıyordum
Tim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.