Ayar
Şu ortamlarda düşünüyoruz:
- Ayrık eylemler
- Ayrık durumlar
- Sınırlı ödüller
- Sabit politika
- Sonsuz ufuk
En uygun politika şu şekilde tanımlanır:
ve optimal değer fonksiyonu :
Maksimum değere ulaşan bir dizi politika olabilir. Ancak yalnızca bir optimal değer işlevi vardır:
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
Soru
tüm için aynı anda (1) yerine getiren en az bir olduğunu nasıl kanıtlayabilirim ?π∗s∈S
İspat taslağı
Konstrukt uygun denklemi bunun Denklem ile tanımına denk olduğunu aşama 2'de olacağını optimum değer fonksiyon, bir geçici vekil tanımı olarak kullanılır. (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Denk. (4) ve Denk. (2) yoluyla optimal değer fonksiyonunu tanımlamanın denkliğini türetin.
(Aslında kanıtta sadece ihtiyaç yönüne ihtiyacımız olduğunu unutmayın, çünkü Denk. (4) 'ün Denk. (4)' ü inşa ettiğimiz için yeterlilik açıktır.)
Denklem (4) için benzersiz bir çözüm olduğunu kanıtlayın.
2. adımda, 3. adımda elde edilen çözeltinin aynı zamanda Denklem (2) 'ye de bir çözüm olduğunu biliyoruz, bu nedenle optimal bir değer fonksiyonudur.
Optimal değer fonksiyonundan, her bir durum için Denk. (4) 'deki maksimize edici eylemi seçerek optimal bir politikayı kurtarabiliriz.
Adımların ayrıntıları
1
Yana , elimizdeki . Eğer varsa ve , öyle ki , biz maksimize ederek daha iyi bir ilke tercih üzerine .V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
Adım 1 ile devam eder.
(<=)
yani ise tatmin , sonra .V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Tanımlama uygun Bellman operatörü olarak
Hedefimiz , olduğunu kanıtlamaktır. . Bunu, Puterman [1] 'i takip eden iki sonucu birleştirerek gösteriyoruz :
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
a) , .V~≥TV~V~≥V∗
b) , .V~≤TV~V~≤V∗
Kanıt:
a)
Herhangi biri için ,
Burada karar kuralı (belirli bir zamanda eylem profili), hemen ödülün vektör temsilidir indüklenen ve indüklenen geçiş matristir .π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
Tümevarım yoluyla, herhangi bir ,
burada altındaki adım geçiş matrisini temsil eder .n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
Yana
Elimizdeki
Yani . Ve bu herhangi bir ,
b)
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
1. adımdan itibaren.
3
Optimal Bellman operatörü normunda bir daralmadır , bkz. [2].L∞
İspat: Herhangi bir ,
burada (*) 'da
s
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Böylece Banach sabit nokta teoremi ile benzersiz bir sabit noktası vardır.T
Referanslar
[1] Puterman, Martin L. .. “Markov Karar Süreçleri: Kesikli Stokastik Dinamik Programlama.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf