1
Güçlendirme öğreniminde indirim faktörünün anlamı
Atari'nin oyunlarındaki google deepmind başarılarını okuduktan sonra q-öğrenmeyi ve q-ağlarını anlamaya çalışıyorum, ama biraz kafam karıştı. İskonto faktörü kavramında karışıklık ortaya çıkar. Anladıklarımın kısa özeti. Bir eylemin beklenen optimal değerinin değerini tahmin etmek için derin bir evrişimli sinir ağı kullanılır. Ağ kayıp fonksiyonunu en aza indirmelidir burada E s ′ …