Politika yineleme algoritması neden en uygun ilke ve değer işlevine yakınsar?


10

Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .Vπ

Politika yinelemesini hatırlayın:

Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxaAsPsa(s)V(s)}

Açgözlü bir algoritmanın neden en uygun politikaya ve en uygun değer işlevine götürmesi neden? (Açgözlü algoritmaların her zaman bunu garanti etmediğini veya yerel optima'larda takılıp kalmayacağını biliyorum, bu yüzden sadece algoritmanın en iyiliği için bir kanıt görmek istedim).

Ayrıca, bana göre politika yinelemesi, kümelenme veya gradyan inişine benzer bir şey. Kümelemeye, çünkü parametrelerin mevcut ayarıyla optimize ediyoruz. Degrade inişe benzer, çünkü sadece bazı işlevleri arttırıyor gibi görünen bir değer seçer. Bu iki yöntem her zaman optimal maksimuma yaklaşmaz ve bu algoritmanın bahsettiğim öncekilerden nasıl farklı olduğunu anlamaya çalışıyordum.


Bunlar benim düşüncelerim:

Diyelim ki bazı politikalarla başlıyoruz o zaman, ilk adımdan sonra, bu sabit politika için:π1

Vπ1(s)=R(s)+γsPsπ1(s)(s)Vπ1(s)

V(1):=Vπ1(s)

Burada V ^ {(1)}, ilk yineleme için değer işlevidir. Sonra ikinci adımdan sonra değerini artırmak için yeni bir politika . Şimdi, yeni politika , algoritmanın ikinci adımını yaparsak aşağıdaki eşitsizlik geçerli olur:π2Vπ1(s)π2

R(s)+γsPsπ1(s)(s)Vπ1(s)R(s)+γsPsπ2(s)(s)Vπ1(s)

Biz seçim Çünkü önceki adımda değer fonksiyonunu artırmak için ikinci aşamada (yani artırmak için . Şimdiye kadar, onun seçimi açık olduğunu sadece artabilmektedir V ^ {(1)}, çünkü bu şekilde . Ancak, karışıklığım tekrar adımında geliyor çünkü tekrar edip 1. adıma geri döndüğümüzde, aslında tamamen değiştiriyoruz çünkü yeni politika için yeniden hesaplıyoruz . Hangi verir:π2V(1)π2π2V2π2

Vπ2(s)=R(s)+γsPsπ2(s)(s)Vπ2(s)

ama değil:

Vπ1(s)=R(s)+γsPsπ2(s)(s)Vπ1(s)

i iyileştirmek için seçildiği için bu yeni bir değil, çünkü bir sorun gibi görünüyor . Temel sorun, yani geliştirmek için garanti yaparak yerine arasında değer fonksiyonu olduğunda, . Ancak yineleme adımında değerini , ancak değer işlevinin her tekrarda tekdüze bir şekilde geliştiğini nasıl garanti ettiğini göremiyorum çünkü değer fonksiyonunu iyileştirmek için hesaplandığında değer işlevleriπ2V(1)Vπ2pi2R(s)+γsPsπ1(s)(s)Vπ1(s)π2pi1Vπ1Vπ1Vπ2π2Vπ1ancak 1. adım değerini (bu kötüdür, çünkü I yalnızca önceki değer işlevini geliştirdi).Vπ1Vπ2π2


1
Sadece bir not: açgözlü bir algoritmanın genel olarak en uygun çözümü bulamayacağı anlamına gelmez.
Regenschein

1
Değer yinelemesi, açgözlü olmaktan ziyade bir Dinamik Programlama algoritmasıdır. İkisi bazı benzerlikler paylaşıyor, ancak farklılıklar var. Stackoverflow.com/questions/13713572/… adresine bakın .
francoisr

@ francoisr kimse bana bunu söylemedi. Belki de bu yüzden benim için (gereksiz) gizemli idi. DP'yi çok iyi tanıyorum. Yine de teşekkürler! :)
Pinokyo

Yanıtlar:


4

Sanırım eksik olduğun kısım Vπ2Vπ1 biz sipariş edebilirsiniz aynı nedenle garanti edilir π2π1. Temelde bir politikanın tanımı diğerinden daha iyi - değer fonksiyonunun tüm eyaletlerde daha büyük veya eşit olması. Bunu maksimize eden eylemleri seçerek garanti ettiniz - hiçbir durum değeri öncekinden daha kötü olamaz ve daha iyi bir maksimize edici eylem seçmek için sadece bir eylem seçeneği değiştiyse,Vπ2(s) çünkü bu durum eskisinden daha yüksek olacak Vπ1(s).

Üretilecek sonuçları en üst düzeye çıkarmayı seçtiğimizde π2, ne olduğunu bilmiyoruz Vπ2(s) herhangi bir devlet için olacak, ama bunu biliyoruz s:Vπ2(s)Vπ1(s).

Bu nedenle, döngüden geri dönüp Vπ2 yeni politikanın öncekiyle aynı veya daha yüksek değerlere sahip olması garanti edilir ve politikayı tekrar güncelleme söz konusu olduğunda, π3π2π1.


4

Önce Politika İterasyon Algoritmasının neden çalıştığını görelim. İki adımı vardır.

Politika Değerlendirme Adımı:

vn=rdn+γPdnvn lineer denklemler sisteminin genel vektör şeklidir.

Burada, şartlar rdn,Pdn anında ödül ve geçiş matrisinin ilgili satırlarıdır.

Bu şartlar politikaya bağlıdır Πn

Yukarıdaki denklem sistemini çözerek vn

Politika Geliştirme Adımı:

Yeni bir politika bulabildiğimizi varsayalım Πn+1 öyle ki

rdn+1+γPdn+1vnrdn+γPdnvnrdn+1[IγPdn+1]vnsay this is eqn. 1

Şimdi, yeni politikaya dayanarak Πn+1, bulabiliriz vn+1=rdn+1+γPdn+1vn+1diyelim ki bu denklem 2.

Bunu göstereceğiz vn+1vn ;

yani esasen tüm devletler için yeni seçilen politika Πn+1 önceki politikaya göre daha iyi bir değer verir Πn

Kanıt:

Denklem 2'den,

[IγPdn+1]vn+1=rdn+1

itibaren 1&2, sahibiz

vn+1vn

Esasen, her yinelemede değerler monoton olarak artmaktadır.

Politika Entegrasyonunun neden yerel bir maksimumda kalmayacağını anlamak önemlidir.

Politika, devlet eylem alanından başka bir şey değildir.

Her politika yineleme adımında, arasında farklı olan en az bir eyalet eylemi bulmaya çalışırız. Πn+1 ve Πn ve bak bakalım rdn+1+γPdn+1vnrdn+γPdnvn. Ancak koşul yerine getirildiğinde, çözümü yeni lineer denklemler sistemine hesaplayacağız.

üstlenmek Π ve Π# sırasıyla küresel ve yerel optimumdur.

, ima vv#

Algoritmanın yerel optimumda takılı kaldığını varsayın.

Bu durumda, politika geliştirme adımı yerel optimum durum eylem alanında durmaz Π#, en az bir devlet eylemi olduğu için Π hangisinden farklı Π# ve daha yüksek bir v nazaran v#

veya başka bir deyişle,

[IγPd]v[IγPd]v#

rd[IγPd]v#

rd+γPdv#v#

rd+γPdv#rd#+γPd#v#

Bu nedenle, Politika yinelemesi yerel bir optimumda durmaz

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.