Yanıtlar:
Bunu denedim ve aynı sonucu aldım.
Bunun nedeni, degradenin .abs
yavaş yavaş sıfıra yaklaştığı kare farkın aksine, basit bir optimizatörün minimayı takip etmesinin daha zor olması, mutlak farkın gradyanının, aniden tersine çevrilen sabit bir büyüklüğe sahip olması ve optimizatörün etrafında salınım yapma eğiliminde olmasıdır. asgari nokta. Temel degrade inişi, degradenin büyüklüğüne ve temel olarak adım boyutları için degradenin sadece bir çarpanı olan öğrenme hızına çok duyarlıdır.
En basit düzeltme öğrenme hızını düşürmektir.
optimizer = tf.train.GradientDescentOptimizer(0.5)
için
optimizer = tf.train.GradientDescentOptimizer(0.05)
Ayrıca, farklı optimize ediciler ile bir oyun var. Bazıları .abs
temelli kayıplarla daha iyi başa çıkabilecektir .