Neden her zaman diğer tüm politikalardan daha iyi veya eşit olan en az bir politika vardır?


15

Takviye Öğrenimi: Giriş. İkinci baskı, devam ediyor ., Richard S. Sutton ve Andrew G. Barto (c) 2012, s. 67-68.

Bir takviye öğrenme görevinin çözülmesi, kabaca uzun vadede çok ödül kazanan bir politika bulmak anlamına gelir. Sonlu MDP'ler için, en uygun politikayı tam olarak aşağıdaki şekilde tanımlayabiliriz. Değer işlevleri, ilkeler üzerinden kısmi bir sıralamayı tanımlar. Bir politika bir politika için eşit veya daha iyi olması tanımlanır beklenen getiri büyükse veya buna eşit tüm devletler için. Başka bir deyişle, yalnızca , tüm . Her zaman diğer politikalardan daha iyi veya ona eşit en az bir politika vardır. Bu optimal bir politika.πππππvπ(s)vπ(s)sS

Neden her zaman diğer tüm politikalardan daha iyi veya eşit olan en az bir politika vardır?


Puterman'ın "Markov Karar Süreçleri" bölüm 6.2'de çok ayrıntılı bir kanıt (Banach'ın sabit nokta teoremini kullanır) görünür.
Toghs

Yanıtlar:


3

Alıntılanan bölümün hemen ötesinde, aynı paragraf aslında size bu politikanın ne olduğunu söyler: her eyalette en iyi eylemi gerçekleştirir. Bir MDP'de, bir eyalette gerçekleştirdiğimiz eylem, diğerlerinde gerçekleştirilen eylemlerin ödüllerini etkilemez, bu nedenle politikayı tek tek en üst düzeye çıkarabiliriz.


Bu cevap tamamen yanlış değil mi? Politika durumunu duruma göre optimize etmenin en uygun politikaya yol açtığını nasıl söyleyebilirsiniz? İ durumu üzerinde optimize durumunda ve beni alır ve daha sonra, optimize optimal değer fonksiyonu için iletkenler , ancak burada bir politika vardır suboptimal kurşunları ve optimal değer fonksiyonu den daha yüksektir . Böyle bir lanetleme analizi ile bunu nasıl ortadan kaldırabilirsiniz? S t + 1 S t + 1 V t + 1 S t S l S l V t + 1StSt+1St+1Vt+1StSlSlVt+1
MiloMinderbinder

Optimal ilkesi Eğer @MiloMinderbinder seçmektir , daha sonra değeri değerinden daha yüksektir . S t + 1 S t + 1 S lStSt+1St+1Sl
Don Reba

Benim hatam. Yazım hatası düzeltildi: 'Bu cevap tamamen yanlış değil mi? Politika durumunu eyaletlere göre optimize etmenin optimal politikaya yol açtığını nasıl söyleyebilirsin? İ durumu üzerinde optimize durumunda ve beni alır ve daha sonra, optimize optimal değer fonksiyonu için iletkenler ve ancak başka orada politika, için suboptimal yol açar da ve dolayısıyla değer fonksiyonu daha yüksektir ancak değeri fonksiyonu Bu altında daha yüksek bir eyalet bazında optimize ederek bulunan politikaya göre. Bu sizin tarafınızdan nasıl destekleniyor? 'S t + 1 S t + 1 V t + 2 S t + 2 S t S l + 1 S t + 1 V l + 1 S t + 2StSt+1St+1Vt+2St+2StSl+1St+1Vl+1St+2
MiloMinderbinder

Bence tanımı ilk etapta gerçekleşmesini engelleyecektir, çünkü gelecekteki getirileri de hesaba katmalıdır. V
Flying_Banana

O zaman soru şu olurdu: neden var? Banach Sabit Nokta Teoremi'ni alamazsınız :-)q
Fabian Werner

10

Optimal bir politikanın varlığı açık değildir. Nedenini görmek için, değer işlevinin ilkeler alanı üzerinde yalnızca kısmi bir sıralama sağladığını unutmayın. Bu şu anlama gelir:

ππvπ(s)vπ(s),sS

Bu yalnızca kısmi bir sıralama olduğundan, ve iki politikanın karşılaştırılabilir olmadığı bir durum olabilir . Başka bir deyişle, ve durum alanının alt kümeleri şu şekilde olur:π 2 S 1 S 2π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

Bu durumda, bir politikanın diğerinden daha iyi olduğunu söyleyemeyiz. Ancak sınırlı değer fonksiyonlarına sahip sonlu MDP'lerle uğraşıyorsak, böyle bir senaryo asla gerçekleşmez. Tam olarak bir optimal değer işlevi vardır, ancak birden çok optimal politika olabilir.

Bunun kanıtı için Banach Sabit Nokta teoremini anlamanız gerekir. Ayrıntılı bir analiz için lütfen bakınız .


8

Ayar

Şu ortamlarda düşünüyoruz:

  • Ayrık eylemler
  • Ayrık durumlar
  • Sınırlı ödüller
  • Sabit politika
  • Sonsuz ufuk

En uygun politika şu şekilde tanımlanır: ve optimal değer fonksiyonu : Maksimum değere ulaşan bir dizi politika olabilir. Ancak yalnızca bir optimal değer işlevi vardır:

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

Soru

tüm için aynı anda (1) yerine getiren en az bir olduğunu nasıl kanıtlayabilirim ?πsS

İspat taslağı

  1. Konstrukt uygun denklemi bunun Denklem ile tanımına denk olduğunu aşama 2'de olacağını optimum değer fonksiyon, bir geçici vekil tanımı olarak kullanılır. (2).

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Denk. (4) ve Denk. (2) yoluyla optimal değer fonksiyonunu tanımlamanın denkliğini türetin.

    (Aslında kanıtta sadece ihtiyaç yönüne ihtiyacımız olduğunu unutmayın, çünkü Denk. (4) 'ün Denk. (4)' ü inşa ettiğimiz için yeterlilik açıktır.)

  3. Denklem (4) için benzersiz bir çözüm olduğunu kanıtlayın.

  4. 2. adımda, 3. adımda elde edilen çözeltinin aynı zamanda Denklem (2) 'ye de bir çözüm olduğunu biliyoruz, bu nedenle optimal bir değer fonksiyonudur.

  5. Optimal değer fonksiyonundan, her bir durum için Denk. (4) 'deki maksimize edici eylemi seçerek optimal bir politikayı kurtarabiliriz.

Adımların ayrıntıları

1

Yana , elimizdeki . Eğer varsa ve , öyle ki , biz maksimize ederek daha iyi bir ilke tercih üzerine .V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

Adım 1 ile devam eder.

(<=)

yani ise tatmin , sonra .V~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

Tanımlama uygun Bellman operatörü olarak Hedefimiz , olduğunu kanıtlamaktır. . Bunu, Puterman [1] 'i takip eden iki sonucu birleştirerek gösteriyoruz :

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

a) , .V~TV~V~V

b) , .V~TV~V~V

Kanıt:

a)

Herhangi biri için , Burada karar kuralı (belirli bir zamanda eylem profili), hemen ödülün vektör temsilidir indüklenen ve indüklenen geçiş matristir .π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

Tümevarım yoluyla, herhangi bir , burada altındaki adım geçiş matrisini temsil eder .n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

Yana Elimizdeki Yani . Ve bu herhangi bir , b)

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

1. adımdan itibaren.

3

Optimal Bellman operatörü normunda bir daralmadır , bkz. [2].L

İspat: Herhangi bir , burada (*) 'da s

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

Böylece Banach sabit nokta teoremi ile benzersiz bir sabit noktası vardır.T

Referanslar

[1] Puterman, Martin L. .. “Markov Karar Süreçleri: Kesikli Stokastik Dinamik Programlama.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.