Bir sinir ağının ağırlıklarını bir momentum terimiyle backpagagation algoritmasını kullanarak güncellerken, öğrenme hızı momentum terimine de uygulanmalı mıdır?
Momentum kullanımıyla ilgili bulabildiğim bilgilerin çoğu, aşağıdaki gibi görünen denklemlere sahiptir:
nerede öğrenme oranıdır ve momentum terimi.
Eğer terim, terim sonra bir sonraki yinelemede önceki iterasyondan ağırlık üzerinde mevcut olandan daha büyük bir etkiye sahip olacaktır.
Bu momentum teriminin amacı mıdır? ya da denklem daha böyle mi görünmeli?
yani. her şeyi öğrenme oranına göre ölçeklendirmek?