Aşağıdaki denklemi " Takviye Öğrenmede. Giriş " bölümünde görüyorum , ancak aşağıda mavi olarak vurguladığım adımı tam olarak takip etmeyin. Bu adım tam olarak nasıl elde edilir?
Aşağıdaki denklemi " Takviye Öğrenmede. Giriş " bölümünde görüyorum , ancak aşağıda mavi olarak vurguladığım adımı tam olarak takip etmeyin. Bu adım tam olarak nasıl elde edilir?
Yanıtlar:
Bu, arkasındaki temiz, yapılandırılmış matematiği merak eden herkesin cevabıdır (yani, rastgele bir değişkenin ne olduğunu bilen ve rastgele bir değişkenin yoğunluğa sahip olduğunu gösteren veya varsayalım) sizin için cevap ;-)):
Her şeyden önce Markov karar yöntem yalnızca sınırlı bir sayıda olduğunu olması gerekir , -rewards sonlu grubu var olduğunu mi yani her ait yoğunluklarının değişkenleri, yani tüm ve bir harita bu şekilde
(MDP'nin arkasındaki otomatlarda, sonsuz sayıda durum olabilir, ancak eyaletler arasındaki muhtemel sınırsız geçişlere ekli ancak çok az sayıda - -reward-dağılımı vardır)
Teorem 1 : (yani bütünleştirilebilir bir gerçek rastgele değişken) olmasına izin verin ve , ortak yoğunluğa sahip
olması için başka bir rastgele değişken olsun;
İspat : Esasen burada Stefan Hansen tarafından kanıtlanmış .
Teorem 2 : ve ortak yoğunluğa sahip olması için
rastgele değişkenler olmasına izin verin
burada , aralığıdır .
İspat :
Put ve koyun sonra bir kişi (MDP’nin sadece çok sayıda elemanına sahip olduğu gerçeğini kullanarak ) birleştiğini ve işlevinden berihala (diğer bir deyişle integrali) bir de bu (şartlı beklenti [arasında çarpanlama] için belirleyici denklemlere monoton yakınsama teoremi olağan kombinasyonu ve daha sonra baskın yakınsama kullanarak) gösterebilir
Şimdi bir kişi bunu gösteriyor
Ya devlet alanı sonludur (ya da ve toplam sonludur) ya da tüm ödüller tamamen olumludur (sonra monoton yakınlaşmayı kullanırız) ya da tüm ödüller negatiftir (sonra eksi işaretini önüne koyarız. denklemini kullanın ve tekrar monoton yakınsama kullanın) ya da tüm ödüller sınırlandırılır (daha sonra baskın yakınsama kullanırız). Daha sonra ( yukarıdaki kısmi / sonlu Bellman denkleminin her iki tarafına uygulayarak) elde ederiz.
ve sonra gerisi olağan yoğunluk manipülasyonudur.
HATIRLATMA: Çok basit görevlerde bile, devlet alanı sonsuz olabilir! Bir örnek, 'kutup direği' görevidir. Durum esas olarak direğin açısıdır ( cinsinden bir değer , sayılamayan bir sonsuz küme!)
HATIRLATMA: İnsanlar hamurlarını doğrudan yoğunluğunu kullanırsanız ve '... AMA ... sorum şu olurdu:
Süreden sonra indirgenmiş ödüller toplamını olsun olabilir:
Halde başlangıç Yardımcı değeri, , zaman beklenen toplamına eşdeğer
indirgenmiş ödülleri ilke yürütme durumu başlayarak itibaren.
tanımına göre Doğrusallık yasasına göre
yasasına göre
Toplam Beklenti
tanımı ile Doğrusallık yasasına göre
İşlem tatmin Markov İşletme varsayılarak:
Olasılık durum içinde biten durumu başlamış olan ve alınan önlem ,
ve
Ödül durum içinde biten durumu başlamış olan ve eylemin ,
Bu nedenle yukarıdaki fayda denklemini
Nerede; : aksiyon alma olasılığı zaman devlet içinde bir stokastik politikası için. Deterministik politika için
İşte kanıtım. Koşullu dağılımların manipülasyonuna dayanır ve bu da takip etmeyi kolaylaştırır. Umarım bu size yardımcı olur.
Aşağıdaki yaklaşımda ne var?
Toplamları almak üzere konmakta , ve arasından . Sonuçta, olası eylemler ve olası sonraki durumlar olabilir. Bu ekstra koşullar ile beklentinin doğrusallığı hemen hemen doğrudan sonuca yol açar.
Yine de, tartışmamın matematiksel olarak ne kadar titiz olduğundan emin değilim. Gelişmelere açığım.
Bu sadece kabul edilen cevaba bir yorum / eklemedir.
Toplam beklenti yasasının uygulandığı hatta kafam karıştı. Toplam beklenti yasasının ana formunun burada yardımcı olabileceğini sanmıyorum. Aslında bunun bir varyantı gerekli.
Eğer rastgele değişkenlerse ve tüm beklentilerin mevcut olduğunu varsayarsak, aşağıdaki kimlik geçerli olur:
Bu durumda, , ve . Sonra
, ki Markov özelliği tarafından Eqauls
Oradan cevaptaki kanıtın geri kalanını izleyebiliriz.
genellikle maddesi varsayılarak beklenti aşağıdaki belirtmektedir ilkeπ. Bu durumdatt(a | s)yani ajan aksiyon alır olasılığını verir, belirli olmayan görünüyoradevlets.
Bu gibi görünüyor , daha düşük bir durum, yerini almaktadır R, t + 1 , rastgele değişken. İkinci beklentim takip etmeye devam varsayımını yansıtmak için, sonsuz toplamı yerini π gelecekteki tüm için t . Σ s ' , r, r ⋅ s ( s ' , r | s , bir ) o zaman bir sonraki adımda beklenen hemen ödül; İkinci beklenti olur v tt durum içinde sarılması olasılığı ile ağırlıklı bir sonraki durum beklenen değerini, bu mu s Alınarak bir mesafede s .
Böylece, beklenen burada olarak birlikte ifade edilen ilke olasılık olarak, geçiş ve ödül fonksiyonları için hesapları .
Doğru cevap zaten verilmiş ve biraz zaman geçti bile, ben adım kılavuz aşağıdaki adımı yararlı olabileceğini düşündük:
Beklenen Değerin doğrusallığı derken ayırabilirsiniz
içine ve .
İkinci bölüm Toplam Beklenti Kanunu ile birlikte aynı adımlarla devam ederken, yalnızca ilk bölüm için adımları ana hatlarıyla açıklayacağım.
Whereas (III) follows form:
I know there is already an accepted answer, but I wish to provide a probably more concrete derivation. I would also like to mention that although @Jie Shi trick somewhat makes sense, but it makes me feel very uncomfortable:(. We need to consider the time dimension to make this work. And it is important to note that, the expectation is actually taken over the entire infinite horizon, rather than just over and . Let assume we start from (in fact, the derivation is the same regardless of the starting time; I do not want to contaminate the equations with another subscript )
At this stage, I believe most of us should already have in mind how the above leads to the final expression--we just need to apply sum-product rule() painstakingly.
Let us apply the law of linearity of Expectation to each term inside the
Part 1
Well this is rather trivial, all probabilities disappear (actually sum to 1) except those related to . Therefore, we have
Part 2
Guess what, this part is even more trivial--it only involves rearranging the sequence of summations.
And Eureka!! we recover a recursive pattern in side the big parentheses. Let us combine it with , and we obtain
and part 2 becomes
Part 1 + Part 2
And now if we can tuck in the time dimension and recover the general recursive formulae
Final confession, I laughed when I saw people above mention the use of law of total expectation. So here I am
There are already a great many answers to this question, but most involve few words describing what is going on in the manipulations. I'm going to answer it using way more words, I think. To start,
is defined in equation 3.11 of Sutton and Barto, with a constant discount factor and we can have or , but not both. Since the rewards, , are random variables, so is as it is merely a linear combination of random variables.
That last line follows from the linearity of expectation values. is the reward the agent gains after taking action at time step . For simplicity, I assume that it can take on a finite number of values .
Work on the first term. In words, I need to compute the expectation values of given that we know that the current state is . The formula for this is
In other words the probability of the appearance of reward is conditioned on the state ; different states may have different rewards. This distribution is a marginal distribution of a distribution that also contained the variables and , the action taken at time and the state at time after the action, respectively:
Where I have used , following the book's convention. If that last equality is confusing, forget the sums, suppress the (the probability now looks like a joint probability), use the law of multiplication and finally reintroduce the condition on in all the new terms. It in now easy to see that the first term is
as required. On to the second term, where I assume that is a random variable that takes on a finite number of values . Just like the first term:
Once again, I "un-marginalize" the probability distribution by writing (law of multiplication again)
The last line in there follows from the Markovian property. Remember that is the sum of all the future (discounted) rewards that the agent receives after state . The Markovian property is that the process is memory-less with regards to previous states, actions and rewards. Future actions (and the rewards they reap) depend only on the state in which the action is taken, so , by assumption. Ok, so the second term in the proof is now
as required, once again. Combining the two terms completes the proof
UPDATE
I want to address what might look like a sleight of hand in the derivation of the second term. In the equation marked with , I use a term and then later in the equation marked I claim that doesn't depend on , by arguing the Markovian property. So, you might say that if this is the case, then . But this is not true. I can take because the probability on the left side of that statement says that this is the probability of conditioned on , , , and . Because we either know or assume the state , none of the other conditionals matter, because of the Markovian property. If you do not know or assume the state , then the future rewards (the meaning of ) will depend on which state you begin at, because that will determine (based on the policy) which state you start at when computing .
If that argument doesn't convince you, try to compute what is:
As can be seen in the last line, it is not true that . The expected value of depends on which state you start in (i.e. the identity of ), if you do not know or assume the state .