Atari'nin oyunlarındaki google deepmind başarılarını okuduktan sonra q-öğrenmeyi ve q-ağlarını anlamaya çalışıyorum, ama biraz kafam karıştı. İskonto faktörü kavramında karışıklık ortaya çıkar. Anladıklarımın kısa özeti. Bir eylemin beklenen optimal değerinin değerini tahmin etmek için derin bir evrişimli sinir ağı kullanılır. Ağ kayıp fonksiyonunu en aza indirmelidir burada E s ′ [ y | s , bir ] olan E [ r + γ m bir X bir ' S ( s ' , bir ' ; θ - i ) | s,a] BuradaQ, kümülatif bir puan değeridir ver, eylem seçimi için puan değeridir. s,ave s
Görüş matematiksel açıdan indirim faktörüdür ve devlet ulaşmak için olasılığını temsil ler ' devlet dan s .