Bir çok öğretici çevrimiçi degrade inişi hakkında konuşuyor ve neredeyse hepsi sabit bir adım boyutu kullanıyor (öğrenme hızı ). Neden satır aramanın bir faydası yoktur (satır izleme veya tam satır araması gibi)?
Bir çok öğretici çevrimiçi degrade inişi hakkında konuşuyor ve neredeyse hepsi sabit bir adım boyutu kullanıyor (öğrenme hızı ). Neden satır aramanın bir faydası yoktur (satır izleme veya tam satır araması gibi)?
Yanıtlar:
Vanilya eğim inişi çizgi aramaları kullanılarak daha güvenilir hale getirilebilir; Bunu yapan algoritmalar yazdım ve çok kararlı bir algoritma yapar (her ne kadar hızlı olmasa da).
Bununla birlikte, stokastik gradyan yöntemleri için bir çizgi araştırması yapmak neredeyse mantıklı değildir . Bunu söylememin nedeni, tam kayıp işlevini en aza indirmeye dayanan bir satır araması yaparsak, hemen stokastik yöntemler yapmak için ana motivasyonlardan birini kaybettik; şimdi her güncellemenin tam kayıp fonksiyonunu hesaplamamız gerekiyor. Bu, genellikle ilk türevin tamamını hesaplama maliyetiyle karşılaştırılabilir. Hesaplama maliyetleri nedeniyle tam eğimin hesaplanmasından kaçınmak istediğimiz göz önüne alındığında, tam kayıp fonksiyonunun hesaplanmasında iyi olmak istememiz pek olası görünmemektedir.
Alternatif olarak, rastgele örneklenmiş veri noktanıza dayalı bir satır araması gibi bir şey yapmayı düşünebilirsiniz. Ancak, bu da iyi bir fikir değildir; bu size çok ileri adım attığınız hakkında hiçbir şey söylemeyecektir (hat aramalarının ana yararıdır). Örneğin, lojistik regresyon yaptığınızı varsayalım. Daha sonra her sonuç sadece 0 veya 1'dir ve herhangi bir tek örnek için önemsiz bir şekilde ayrılırız, bu nedenle 1 örneğini temel alan regresyon parametrelerimiz için optimal çözüm önemsizdir veya ∞ , Hauck Donner etkisi ile. Bu iyi değil.
DÜZENLE
@DeltaIV, bunun sadece bireysel numuneler için değil, mini seri için de geçerli olduğuna dikkat çekiyor.
Öğreticiler, muhtemelen optimizasyon için kullanılan en basit algoritmalardan biri olduğu için gradyan inişinden bahsediyor, bu yüzden açıklamak kolay. Bu tür eğiticilerin çoğu oldukça kısa olduğundan, basit şeylere odaklanırlar. Derin öğrenme için kullanılan basit degrade inişin ötesinde en az birkaç popüler optimizasyon algoritması vardır. Aslında insanlar genellikle daha hızlı yakınsadıkları için farklı algoritmalar ve sonra degrade iniş kullanırlar. Bazıları sabit olmayan öğrenme oranına sahiptir (örn. Zaman içinde azalma). Bu tür algoritmaların gözden geçirilmesi için , Sebastian Ruder (veya arXived kağıdı ) tarafından yayınlanan degrade iniş optimizasyon algoritmalarına genel bir bakışı kontrol edebilirsiniz .