Tensorflow'u biraz araştırma için basit sinir ağları yazmak için kullanıyorum ve antrenman yaparken 'nan' ağırlıkları ile ilgili birçok sorun yaşadım. Optimize ediciyi değiştirme, kaybı, veri boyutunu vb. Değiştirme gibi birçok farklı çözüm denedim, ancak boşuna. Son olarak, öğrenme oranındaki bir değişikliğin ağırlıklarımda inanılmaz bir fark yarattığını fark ettim.
.001 (oldukça muhafazakar olduğunu düşündüğüm) bir öğrenme oranı kullanarak, en aza indirme işlevi aslında üssel olarak kaybı artıracaktır. Bir dönemin ardından kayıp binlerce kişiden bir trilyona, sonra da sonsuza ('nan') atlayabilir. Öğrenme oranını .0001'e düşürdüğümde her şey yolunda gitti.
1) Tek bir büyüklük sırasının neden böyle bir etkisi var?
2) Simge durumuna küçültme işlevi neden işlevinin tam tersini gerçekleştirir ve kaybı en üst düzeye çıkarır? Bana öyle geliyor ki, öğrenme oranı ne olursa olsun gerçekleşmemeli.