Güçlendirme Öğreniminde Bellman Denklemini Çıkarmak


Yanıtlar:


7

Bu, arkasındaki temiz, yapılandırılmış matematiği merak eden herkesin cevabıdır (yani, rastgele bir değişkenin ne olduğunu bilen ve rastgele bir değişkenin yoğunluğa sahip olduğunu gösteren veya varsayalım) sizin için cevap ;-)):

Her şeyden önce Markov karar yöntem yalnızca sınırlı bir sayıda olduğunu olması gerekir , -rewards sonlu grubu var olduğunu mi yani her ait yoğunluklarının değişkenleri, yani tüm ve bir harita bu şekilde (MDP'nin arkasındaki otomatlarda, sonsuz sayıda durum olabilir, ancak eyaletler arasındaki muhtemel sınırsız geçişlere ekli ancak çok az sayıda - -reward-dağılımı vardır)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Teorem 1 : (yani bütünleştirilebilir bir gerçek rastgele değişken) olmasına izin verin ve , ortak yoğunluğa sahip olması için başka bir rastgele değişken olsun;XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

İspat : Esasen burada Stefan Hansen tarafından kanıtlanmış .

Teorem 2 : ve ortak yoğunluğa sahip olması için rastgele değişkenler olmasına izin verin burada , aralığıdır .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

İspat :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Put ve koyun sonra bir kişi (MDP’nin sadece çok sayıda elemanına sahip olduğu gerçeğini kullanarak ) birleştiğini ve işlevinden berihala (diğer bir deyişle integrali) bir de bu (şartlı beklenti [arasında çarpanlama] için belirleyici denklemlere monoton yakınsama teoremi olağan kombinasyonu ve daha sonra baskın yakınsama kullanarak) gösterebilir Şimdi bir kişi bunu gösteriyor Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
G ( K ) t = R t + γ G ( K - 1 ) t + 1 E [ G ( K - 1 ) t + 1 , , Thm. 2 yukarıda, sonra Thm. 1 ve daha sonra basit bir marjinalleştirme savaşı kullanılarak, biri Tüm için . Şimdi limitini denklemin her iki tarafına da uygulamamız gerekiyor . Sınırı, alanı üzerindeki integral içine çekmek için bazı ek varsayımlar yapmamız gerekir:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Ya devlet alanı sonludur (ya da ve toplam sonludur) ya da tüm ödüller tamamen olumludur (sonra monoton yakınlaşmayı kullanırız) ya da tüm ödüller negatiftir (sonra eksi işaretini önüne koyarız. denklemini kullanın ve tekrar monoton yakınsama kullanın) ya da tüm ödüller sınırlandırılır (daha sonra baskın yakınsama kullanırız). Daha sonra ( yukarıdaki kısmi / sonlu Bellman denkleminin her iki tarafına uygulayarak) elde ederiz.S=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

ve sonra gerisi olağan yoğunluk manipülasyonudur.

HATIRLATMA: Çok basit görevlerde bile, devlet alanı sonsuz olabilir! Bir örnek, 'kutup direği' görevidir. Durum esas olarak direğin açısıdır ( cinsinden bir değer , sayılamayan bir sonsuz küme!)[0,2π)

HATIRLATMA: İnsanlar hamurlarını doğrudan yoğunluğunu kullanırsanız ve '... AMA ... sorum şu olurdu:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. in yoğunluğunun olduğunu nasıl bildin ?Gt+1
  2. Neden in ile birlikte ortak bir yoğunluğa sahip olduğunu bile biliyorsunuz ?Gt+1St+1,St
  3. Nasıl olduğu sonucuna do ? Bu sadece Markov mülkü değildir: Markov mülkü size sadece marjinal dağılımlar hakkında bir şeyler söyler ancak bunlar tüm dağıtımı belirlemez, örneğin çok değişkenli Gauss'lar!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Süreden sonra indirgenmiş ödüller toplamını olsun olabilir: t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Halde başlangıç Yardımcı değeri, , zaman beklenen toplamına eşdeğer indirgenmiş ödülleri ilke yürütme durumu başlayarak itibaren. tanımına göre Doğrusallık yasasına göre yasasına görest
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Toplam Beklenti tanımı ile Doğrusallık yasasına göre
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

İşlem tatmin Markov İşletme varsayılarak:
Olasılık durum içinde biten durumu başlamış olan ve alınan önlem , ve Ödül durum içinde biten durumu başlamış olan ve eylemin , Prssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Bu nedenle yukarıdaki fayda denklemini
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Nerede; : aksiyon alma olasılığı zaman devlet içinde bir stokastik politikası için. Deterministik politika içinπ(a|s)asaπ(a|s)=1


Sadece birkaç not: üzerindeki toplam , stokastik bir politikada bile 1'e eşittir, ancak deterministik bir politikada, tam ağırlığı alan tek bir eylem vardır (yani, ve gerisi 0 kilo alırsınız, böylece terim denklemden çıkarılır.Toplam beklenti yasasını kullandığınız sırada, şartların sırası tersine çevrilirππ(a|s)=1
Gilad Peleg

1
Bu cevabın yanlış olduğuna eminim: Sadece toplam beklenti yasasını içeren çizgiye kadar denklemleri izleyelim. Sonra sol taraftaki bağlı değildir sağ taraf ise yaptığı ... Yani denklemleri sonra en doğru olduğu takdirde onlar düzeltmek edilir? İntegral üzerinde çeşit olması gerekir zaten bu aşamada. Sebep muhtemelen (rastgele bir değişken) ve faktoringi arasındaki farkları yanlış anlamanızdır. (deterministik bir işlev!) ...sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Bunun doğru olmadığını kabul ediyorum. Jie Shi'den gelen cevap doğru cevap.
teucer

@teucer Bu cevap düzeltilebilir, çünkü sadece bazı "simetrikleşme" ler eksik, yani ama yine de, soru Jie Shis'in cevabındakiyle aynı: Neden ? Bu sadece Markov özelliği değildir, çünkü gerçekten karmaşık bir RV'dir: Bir araya geliyor mu? Eğer öyleyse, nerede? Ortak yoğunluk nedir? Bu ifadeyi yalnızca sınırlı toplamlar (karmaşık evrişim) için değil, sonsuz vaka için biliyoruz. E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@FabianWerner, tüm soruları cevaplayabileceğimden emin değil. Bazı işaretçilerin altında. in yakınsaması için, iskonto edilmiş ödüllerin toplamı olduğu göz önüne alındığında, serinin yakınsak olduğunu varsaymak makul olur (iskonto faktörü ve yakınsamaların gerçekten önemli olmadığı). Yoğunluktan endişe duymuyorum (rastgele değişkenlere sahip olduğumuz sürece her zaman bir eklem yoğunluğunu tanımlayabilir), yalnızca iyi tanımlanmışsa ve bu durumda ise önemlidir. Gt+1<1
teucer

8

İşte kanıtım. Koşullu dağılımların manipülasyonuna dayanır ve bu da takip etmeyi kolaylaştırır. Umarım bu size yardımcı olur.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Bu ünlü Bellman denklemi.


Bu yorumu 'Dikkat et ...' ifadesini biraz daha açıklar mısınız? Neden bu rastgele değişkenler do ve devlet ve eylem değişkenleri bile sahip ortak bir yoğunluğa? Öyleyse, neden kullandığınız bu özelliği biliyorsunuz? Sonlu bir toplam için doğru olduğunu görebiliyorum, fakat rastgele değişken bir sınır ise ... ??? Gt+1
Fabian Werner

Fabian'a: İlk önce ne olduğunu hatırlayalım . . Not, sadece direkt bağlıdır ve yana , tam olarak (diğer tüm MDP geçiş bilgileri yakalar , ve verilen zamanlarından önce tüm durumlardan, eylemlerden ve ödüllerden bağımsızdır . Benzer şekilde, sadece ve . Sonuç olarak, , bağımsızdırGt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StAtve verilen , bu satırı açıklar. RtSt+1
Jie Shi

Üzgünüz, bu sadece 'motive ediyor', aslında hiçbir şeyi açıklamıyor. Örneğin: yoğunluğu nedir ? Neden misiniz? Bu rastgele değişkenler neden ortak bir yoğunluğa sahipler ? Bir miktarın yoğunluklarda bir evrişime dönüştüğünü biliyorsunuz, yani ne ... yoğunlukta sonsuz miktarda integral olmalıdır? Yoğunluk için kesinlikle aday yok! Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Fabian'a: Sorunu anlamadım. 1. Marjinal dağılımın tam şeklini mi istiyorsunuz ? Bilmiyorum ve bu kanıtda buna ihtiyacımız yok. 2. neden ? Çünkü daha önce de bahsettiğim gibi, ve , verilen bağımsızdır . 3. "Ortak yoğunluk" ile neyi kastediyorsunuz? Ortak dağıtım mı demek istiyorsun? Bu rastgele değişkenlerin neden ortak bir dağılıma sahip olduğunu bilmek ister misiniz? Bu evrendeki tüm rastgele değişkenler ortak bir dağılıma sahip olabilir. Bu senin sorununsa, bir olasılık teorisi kitabı bulmanı ve okumanı öneririm. p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi,

Bu tartışmayı sohbete taşıyalım
Fabian Werner

2

Aşağıdaki yaklaşımda ne var?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Toplamları almak üzere konmakta , ve arasından . Sonuçta, olası eylemler ve olası sonraki durumlar olabilir. Bu ekstra koşullar ile beklentinin doğrusallığı hemen hemen doğrudan sonuca yol açar.asrs

Yine de, tartışmamın matematiksel olarak ne kadar titiz olduğundan emin değilim. Gelişmelere açığım.


Son satır, yalnızca MDP özelliği nedeniyle çalışır.
teucer

2

Bu sadece kabul edilen cevaba bir yorum / eklemedir.

Toplam beklenti yasasının uygulandığı hatta kafam karıştı. Toplam beklenti yasasının ana formunun burada yardımcı olabileceğini sanmıyorum. Aslında bunun bir varyantı gerekli.

Eğer X,Y,Z rastgele değişkenlerse ve tüm beklentilerin mevcut olduğunu varsayarsak, aşağıdaki kimlik geçerli olur:

E[X|Y]=E[E[X|Y,Z]|Y]

Bu durumda, X=Gt+1 , Y=St ve Z=St+1 . Sonra

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , ki Markov özelliği tarafından EqaulsE[E[Gt+1|St+1=s]|St=s]

Oradan cevaptaki kanıtın geri kalanını izleyebiliriz.


1
CV'ye Hoşgeldiniz! Lütfen cevapları sadece soruyu cevaplamak için kullanın. Yeterli üne sahip olduğunuzda (50) yorum ekleyebilirsiniz.
Frans Rodenburg

Teşekkür ederim. Evet, yeterince ün sahibi olmadığım için yorum yapamadığım için açıklamalara cevapları eklemenin faydalı olabileceğini düşündüm. Ama bunu aklımda tutacağım.
Mehdi Golari

Ben yükseldim ama yine de, bu cevabın detayları eksik: olsa bile [ X | Y ] bu çılgın ilişkiyi tatmin ediyor, sonra kimse bunun koşullu beklentilerin çarpanlara ayrılması için de geçerli olduğunu garanti etmiyor! Yani, Ntabgoba'nın cevabında olduğu gibi: Sol taraf s side 'ye bağlı değildir , sağ taraf da does’e bağlı değildir . Bu denklem doğru olamaz! E[X|Y]s
Fabian Werner

1

genellikle maddesi varsayılarak beklenti aşağıdaki belirtmektedir ilkeπ. Bu durumdatt(a | s)yani ajan aksiyon alır olasılığını verir, belirli olmayan görünüyoradevlets.Eπ()ππ(a|s)as

Bu gibi görünüyor , daha düşük bir durum, yerini almaktadır R, t + 1 , rastgele değişken. İkinci beklentim takip etmeye devam varsayımını yansıtmak için, sonsuz toplamı yerini π gelecekteki tüm için t . Σ s ' , r, r s ( s ' , r | s , bir ) o zaman bir sonraki adımda beklenen hemen ödül; İkinci beklenti olur v tt durum içinde sarılması olasılığı ile ağırlıklı bir sonraki durum beklenen değerini, bu mu srRt+1πts,rrp(s,r|s,a)vπ Alınarak bir mesafede s .sas

Böylece, beklenen burada olarak birlikte ifade edilen ilke olasılık olarak, geçiş ve ödül fonksiyonları için hesapları .p(s,r|s,a)


Teşekkürler. Evet, neyi kastettiniz doğru olduğundan (bu ajan alma eylemi olasılığı var a devlet içinde lar ). π(a|s)as
Amelio Vazquez-Reina

Benim takip etmediğim şey, ikinci adımda hangi terimlerin tam olarak hangi terimlerle genişleştiğidir (olasılık çarpanlarına ayırma ve marjinalleştirmeye aşinayım, ancak RL ile fazla değil). Mi terimi genişletilmektedir? Yani önceki adımda tam olarak neyin anlamı sonraki adımda tam olarak neye eşittir? Rt
Amelio Vazquez-Reina

1
Öyle görünüyor , alt durumda, yerini alıyor R t + 1 , rastgele değişkenin ve ikinci beklenti sonsuz toplamı (biz takip etmeye devam muhtemelen varsayımı anlatmak için değiştirir π gelecekteki tüm için t ). Σ s ( s ' , r | s , bir ) r, daha sonra bir sonraki adım beklenen hemen ödül ve ikinci beklenti hale gelir v π sarma olasılığı ile ağırlıklı bir sonraki durum beklenen değerini, bu mu s devletinin almış olmasırRt+1πtΣp(s,r|s,a)rvπs dan s . as
Sean Easter,

1

Doğru cevap zaten verilmiş ve biraz zaman geçti bile, ben adım kılavuz aşağıdaki adımı yararlı olabileceğini düşündük:
Beklenen Değerin doğrusallığı derken ayırabilirsiniz E[Rt+1+γE[Gt+1|St=s]] içine E[Rt+1|St=s] ve γE[Gt+1|St=s] .
İkinci bölüm Toplam Beklenti Kanunu ile birlikte aynı adımlarla devam ederken, yalnızca ilk bölüm için adımları ana hatlarıyla açıklayacağım.

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Whereas (III) follows form:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over s and s. Let assume we start from t=0 (in fact, the derivation is the same regardless of the starting time; I do not want to contaminate the equations with another subscript k)

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
NOTED THAT THE ABOVE EQUATION HOLDS EVEN IF T, IN FACT IT WILL BE TRUE UNTIL THE END OF UNIVERSE (maybe be a bit exaggerated :) )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule(abcabcaabbcc) painstakingly. Let us apply the law of linearity of Expectation to each term inside the (r1+γt=0T2γtrt+2)

Part 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to r1. Therefore, we have

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with γt=0T2γtrt+2, and we obtain vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

and part 2 becomes
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Part 1 + Part 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

And now if we can tuck in the time dimension and recover the general recursive formulae

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am


Erm... what is the symbol 'a0,...,a' supposed to mean? There is no a...
Fabian Werner

Another question: Why is the very first equation true? I know E[f(X)|Y=y]=Xf(x)p(x|y)dx but in our case, X would be an infinite sequence of random variables (R0,R1,R2,........) so we would need to compute the density of this variable (consisting of an infinite amount of variables of which we know the density) together with something else (namely the state)... how exactly do you du that? I.e. what is p(r0,r1,....)?
Fabian Werner

@FabianWerner. Take a deep breath to calm your brain first:). Let me answer your first question. a0,...,aa0a1,...,a. If you recall the definition of the value function, it is actually a summation of discounted future rewards. If we consider an infinite horizon for our future rewards, we then need to sum infinite number of times. A reward is result of taking an action from a state, since there is an infinite number of rewards, there should be an infinite number of actions, hence a.
Karlsson Yu

1
let us assume that I agree that there is some weird a (which I still doubt, usually, students in the very first semester in math tend to confuse the limit with some construction that actually involves an infinite element)... I still have one simple question: how is “a1...a defined? I know what this expression is supposed to mean with a finite amount of sums... but infinitely many of them? What do you understand that this expression does?
Fabian Werner

1
internet. Could you refer me to a page or any place that defines your expression? If not then you actually defined something new and there is no point in discussing that because it is just a symbol that you made up (but there is no meaning behind it)... you agree that we are only able to discuss about the symbol if we both know what it means, right? So, I do not know what it means, please explain...
Fabian Werner

1

There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,

Gtk=t+1Tγkt1Rk

is defined in equation 3.11 of Sutton and Barto, with a constant discount factor 0γ1 and we can have T= or γ=1, but not both. Since the rewards, Rk, are random variables, so is Gt as it is merely a linear combination of random variables.

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

That last line follows from the linearity of expectation values. Rt+1 is the reward the agent gains after taking action at time step t. For simplicity, I assume that it can take on a finite number of values rR.

Work on the first term. In words, I need to compute the expectation values of Rt+1 given that we know that the current state is s. The formula for this is

Eπ[Rt+1|St=s]=rRrp(r|s).

In other words the probability of the appearance of reward r is conditioned on the state s; different states may have different rewards. This p(r|s) distribution is a marginal distribution of a distribution that also contained the variables a and s, the action taken at time t and the state at time t+1 after the action, respectively:

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Where I have used π(a|s)p(a|s), following the book's convention. If that last equality is confusing, forget the sums, suppress the s (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on s in all the new terms. It in now easy to see that the first term is

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

as required. On to the second term, where I assume that Gt+1 is a random variable that takes on a finite number of values gΓ. Just like the first term:

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

The last line in there follows from the Markovian property. Remember that Gt+1 is the sum of all the future (discounted) rewards that the agent receives after state s. The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so p(g|s,r,a,s)=p(g|s), by assumption. Ok, so the second term in the proof is now

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

as required, once again. Combining the two terms completes the proof

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

UPDATE

I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with (), I use a term p(g|s) and then later in the equation marked () I claim that g doesn't depend on s, by arguing the Markovian property. So, you might say that if this is the case, then p(g|s)=p(g). But this is not true. I can take p(g|s,r,a,s)p(g|s) because the probability on the left side of that statement says that this is the probability of g conditioned on s, a, r, and s. Because we either know or assume the state s, none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state s, then the future rewards (the meaning of g) will depend on which state you begin at, because that will determine (based on the policy) which state s you start at when computing g.

If that argument doesn't convince you, try to compute what p(g) is:

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

As can be seen in the last line, it is not true that p(g|s)=p(g). The expected value of g depends on which state you start in (i.e. the identity of s), if you do not know or assume the state s.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.