Güçlendirme öğreniminde indirim faktörünün anlamı

Atari'nin oyunlarındaki google deepmind başarılarını okuduktan sonra q-öğrenmeyi ve q-ağlarını anlamaya çalışıyorum, ama biraz kafam karıştı. İskonto faktörü kavramında karışıklık ortaya çıkar. Anladıklarımın kısa özeti. Bir eylemin beklenen optimal değerinin değerini tahmin etmek için derin bir evrişimli sinir ağı kullanılır. Ağ kayıp fonksiyonunu en aza indirmelidir burada olan Burada, kümülatif bir puan değeridir ve, eylem seçimi için puan değeridir. ve

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

sırasıyla eyalet ve etki süresi de tercih

devlet ve süre içinde harekete

önceki iterasyondan de ağın ağırlıklardır.

dikkate skor değerlerinin zamansal farkı aldığımız bir indirim faktördür.

indis zamansal bir adımdır. Buradaki sorun neden anlamaktır

bağlıdır gelmez

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

Görüş matematiksel açıdan indirim faktörüdür ve devlet ulaşmak için olasılığını temsil devlet dan . $\gamma$ $s'$ $s$

$Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— emanuele
kaynak

$s′$ $s$ $p(s'|s,a)$ $γ$ $y$ $s$ bu devletin anlık ödülü artı başlayarak gelecekte almayı beklediğiniz şeydir . Ancak bu gelecek dönem iskonto edilmelidir, çünkü gelecekteki ödüller ( ) şu anda bir ödül almakla aynı değere sahip olmayabilir (tıpkı yarın 100 $ yerine 100 $ almayı tercih ettiğimiz gibi ). Gelecekteki ödüllerinizi ne kadar amortismana tabi tutmak istediğinizi seçmek size kalmıştır (probleme bağlıdır). 0 iskonto faktörü, sadece anında ödüller aldığınız anlamına gelir. İndirim faktörünüz ne kadar yüksek olursa, ödülleriniz zamanla o kadar yayılır. $s$ $γ < 1$

Sinir ağlarının bağlamı dışında saf Güçlendirme Öğrenimi öğrenmek için Deep-Q'yu denemeden önce Sutton & Barto kitabını okumanızı öneririm , bu da sizi kafa karıştırıcı olabilir.

— rcpinto
kaynak

Cevabınız için teşekkürler, ama hala bazı şüphelerim var. Yüksek sesle düşünüyorum. Her adımda puanı aldığınızı ve oyuna başlamak için ödemeniz gerektiğini düşünün . Beklenen değeri nasıl hesaplayabilirim? Peki çünkü gelecekte farklı anlarda değerleri ekliyorsunuz , değil mi?

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

— emanuele

Eh, kıracak bile için doğru değeri nedir ? için doğru değer , şimdiki ve vadeli ödüller arasında takas yapmama izin veren değerdir ve . , adımında hayatta kalma olasılığıdır ve bu yüzden . Çek burada her adımda hayatta kalma olasılığı vardır ve beklenen ömürdür.

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$

— emanuele