Degrade inişin verimsiz olduğu iddiasına bir bağlam vermeniz yardımcı olacaktır. Neye göre verimsiz?
Buradaki eksik bağlamın makine öğrenimindeki stokastik veya yığın gradyan iniş ile karşılaştırılması olduğunu düşünüyorum. Soruyu bu bağlamda nasıl cevaplayacağınız aşağıda açıklanmıştır. Modelin parametrelerini, hatta hiperparametreleri bile optimize ediyorsunuz. Yani, maliyet fonksiyonu var , x i veri ve - Θ - parametrelerin vektör ve L ( ) - kayıp fonksiyonu. Bu maliyeti en aza indirmek için θ j :
∂ parametreleri üzerinde degrade iniş kullanırsınızΣni = 1L ( xben| Θ)xbenΘL ( ) θj
∂∂θjΣi = 1nL ( Θ | xben)
Yani, x i = 1 , … , n üzerindeki tüm verilerin toplamını almanız gerektiğini görüyorsunuz . Bu talihsiz bir durumdur, çünkü bu, degrade inişinizin her adımı için verilerde döngü oluşturmaya devam ettiğiniz anlamına gelir. Toplu ve stokastik gradyan inişi şu şekilde ortaya çıkar: veri kümesinden örnekleme yaparsak ve degradeyi tam kümede değil bir örnek üzerinde hesaplarsak ne olur?
∂xi = 1 , … , n
Buradans,sörneğindeki gözlem sayısıdır. Dolayısıyla, numuneniz toplam setin 1 / 100'ü ise, hesaplamalarınızı 100 kat hızlandırırsınız! Açıkçası, gürültü öğrenmeyi uzatır, ancak gürültü, bu tanıtır oranında azalır√
∂∂θjΣk = 1nsL ( Θ | xk)
nss de hesaplama miktarı artar iken
n, bu nedenle bu hüner çalışabilir.
n−−√n
∑ni=1∑Ms=1∑nsis=1