Güçlendirme öğreniminde indirim faktörünün anlamı


10

Atari'nin oyunlarındaki google deepmind başarılarını okuduktan sonra q-öğrenmeyi ve q-ağlarını anlamaya çalışıyorum, ama biraz kafam karıştı. İskonto faktörü kavramında karışıklık ortaya çıkar. Anladıklarımın kısa özeti. Bir eylemin beklenen optimal değerinin değerini tahmin etmek için derin bir evrişimli sinir ağı kullanılır. Ağ kayıp fonksiyonunu en aza indirmelidir burada E s [ y | s , bir ] olan E [ r + γ m bir X bir ' S ( s ' , bir ' ; θ - i ) | s,a] BuradaQ, kümülatif bir puan değeridir ver, eylem seçimi için puan değeridir. s,ave s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,a sırasıyla eyalet ve etki süresi de tercih t devlet ve süre içinde harekete t ' . Θ - ı önceki iterasyondan de ağın ağırlıklardır. Γ dikkate skor değerlerinin zamansal farkı aldığımız bir indirim faktördür. İ indis zamansal bir adımdır. Buradaki sorun neden anlamaktır γ bağlıdır gelmez İçeride ISTV melerin RWMAIWi'nin .s,attθiγiγθ

Görüş matematiksel açıdan indirim faktörüdür ve devlet ulaşmak için olasılığını temsil ler ' devlet dan s .γss

Qγγ=1

Yanıtlar:


6

ssp(s|s,a)γysbu devletin anlık ödülü artı başlayarak gelecekte almayı beklediğiniz şeydir . Ancak bu gelecek dönem iskonto edilmelidir, çünkü gelecekteki ödüller ( ) şu anda bir ödül almakla aynı değere sahip olmayabilir (tıpkı yarın 100 $ yerine 100 $ almayı tercih ettiğimiz gibi ). Gelecekteki ödüllerinizi ne kadar amortismana tabi tutmak istediğinizi seçmek size kalmıştır (probleme bağlıdır). 0 iskonto faktörü, sadece anında ödüller aldığınız anlamına gelir. İndirim faktörünüz ne kadar yüksek olursa, ödülleriniz zamanla o kadar yayılır.sγ<1

Sinir ağlarının bağlamı dışında saf Güçlendirme Öğrenimi öğrenmek için Deep-Q'yu denemeden önce Sutton & Barto kitabını okumanızı öneririm , bu da sizi kafa karıştırıcı olabilir.


Cevabınız için teşekkürler, ama hala bazı şüphelerim var. Yüksek sesle düşünüyorum. Her adımda puanı aldığınızı ve oyuna başlamak için ödemeniz gerektiğini düşünün . Beklenen değeri nasıl hesaplayabilirim? Peki çünkü gelecekte farklı anlarda değerleri ekliyorsunuz , değil mi? dc
Ev=i=1+γidc
d
emanuele

Eh, kıracak bile için doğru değeri nedir ? için doğru değer , şimdiki ve vadeli ödüller arasında takas yapmama izin veren değerdir ve . , adımında hayatta kalma olasılığıdır ve bu yüzden . Çek burada her adımda hayatta kalma olasılığı vardır ve beklenen ömürdür.
dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
emanuele
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.