Http://keras.io/optimizers/ belgelerine bakarsanız , SGD'de bozulma için bir parametre vardır. Bunun zamanla öğrenme oranını düşürdüğünü biliyorum. Ancak tam olarak nasıl çalıştığını çözemiyorum. lr = lr * (1 - decay)
Üstel olduğu gibi öğrenme oranı ile çarpılan bir değer mi? Ayrıca modelimin hangi öğrenme hızını kullandığını nasıl görebilirim? model.optimizer.lr.get_value()
Birkaç çağa uyum sağladıktan sonra yazdırdığımda , çürümeyi ayarladığım halde orijinal öğrenme oranını geri veriyor.
Ayrıca, momentum kullanmak için nesterov = True ayarını yapmalı mıyım veya kullanabileceğim sadece iki farklı momentum türü var mı? Mesela bunu yapmak için bir nokta varsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
münferit SGD adımlarının sayısıdır, çağların sayısı değil.