Değer yinelemesi ile ilke yinelemesi arasındaki fark nedir?

Question 1

Pekiştirmeli öğrenmede, politika yinelemesi ile değer yinelemesi arasındaki fark nedir?

Anladığım kadarıyla, değer yinelemesinde, en uygun politikayı çözmek için Bellman denklemini kullanıyorsunuz, oysa politika yinelemesinde rastgele bir politika seçiyorsunuz ve bu politikanın ödülünü buluyorsunuz.

Şüphem şu ki, PI'da rastgele bir politika seçiyorsanız, birkaç rastgele politika seçiyor olsak bile, en uygun politika nasıl garanti edilir?

Question 2

Onlara yan yana bakalım. Karşılaştırma için anahtar kısımlar vurgulanmıştır. Figürler, Sutton ve Barto'nun: Reinforcement Learning: An Introduction kitabından alınmıştır .

Anahtar noktaları:

Politika yinelemesi şunları içerir: politika değerlendirmesi + politika geliştirme ve ikisi politika birleşene kadar yinelemeli olarak tekrarlanır.
Değer yinelemesi şunları içerir: optimum değer işlevini bulma + bir politika çıkarma . İkisinin tekrarı yoktur, çünkü değer fonksiyonu bir kez optimal olduğunda, o zaman bunun dışındaki politika da optimal olmalıdır (yani yakınsamalı).
Optimal değer işlevini bulma , aynı zamanda politika iyileştirme (maks. Nedeniyle) ve kesilmiş politika değerlendirmesinin (yakınsama ne olursa olsun tüm durumların yalnızca bir taramasından sonra v_ (s) 'nin yeniden atanması) kombinasyonu olarak da görülebilir.
Politika değerlendirme ve optimum değer işlevini bulma algoritmaları, maks. İşlem dışında (vurgulandığı gibi) oldukça benzerdir.
Benzer şekilde, politika geliştirme ve politika çıkarmanın temel adımı , birincisinin bir istikrar kontrolü içermesi dışında aynıdır.

Tecrübelerime göre, politika tekrarı daha hızlı olduğu değer yineleme , bir politika yakınsak olarak daha hızlı bir değerden. Bunun kitapta da anlatıldığını hatırlıyorum.

Sanırım kafa karışıklığı, daha önce de kafamı karıştıran bu biraz benzer terimlerden kaynaklanıyordu.

Question 3

Gelen politika tekrarı algoritmaları, rastgele bir politika ile başlar, daha sonra, daha sonra önceki değeri fonksiyonuna dayanan yeni (geliştirilmiş) politikasını bulmak ve benzeri politika (politika değerlendirme aşamasında) değeri fonksiyonunu bulmak. Bu süreçte, her bir politikanın bir öncekine göre katı bir gelişme olması garanti edilir (zaten optimal olmadığı sürece). Bir politika verildiğinde, değer fonksiyonu Bellman operatörü kullanılarak elde edilebilir .

İn değeri yineleme , rastgele bir değer fonksiyonu ile başlamak ve daha sonra en uygun değer fonksiyonunu elde edilene kadar, bir tekrarlayıcı işlemde yeni bir (geliştirilmiş) değer fonksiyonunu bulabilirsiniz. Optimum değer işlevinden en uygun ilkeyi kolayca türetebileceğinize dikkat edin. Bu süreç, optimallik Bellman operatörüne dayanmaktadır .

Bir anlamda, her iki algoritma da aynı çalışma prensibini paylaşır ve genelleştirilmiş politika yinelemesinin iki durumu olarak görülebilirler . Bununla birlikte, optimallik Bellman operatörü doğrusal olmayan ve bu nedenle farklı özelliklere sahip olan bir maks operatörü içerir . Ek olarak, salt değer yinelemesi ve salt ilke yinelemesi arasında karma yöntemler kullanmak da mümkündür.

Question 4

Temel fark -

In Politikası İterasyon - Sen rastgele bir politika seçip ona karşılık gelen değer fonksiyonunu bulmak, sonra da önceki değer fonksiyonu dayalı yeni (geliştirilmiş) politikasını bulmak ve bu nedenle bu optimum politikaya yol açacaktır.

In Değer İterasyon - Sen rastgele ardından bir değer işlevini seçmenizi optimum değer işlevinden sonra derived optimum politikası optimum değer fonksiyonunu ulaşana kadar, iteratif sürecinde yeni (geliştirilmiş) değerinin fonksiyonu bulmak.

Politika yinelemesi, “Politika değerlendirme —-> Politika iyileştirme” ilkesine göre çalışır.

Değer Yinelemesi, "Optimal değer işlevi —-> optimum politika" ilkesine göre çalışır.

Question 5

Bana göre, @zyxue'nin fikrinin aksine VI, genellikle PI'dan çok daha hızlıdır .

Nedeni çok açık, zaten bildiğiniz gibi, Bellman Denklemi belirli bir politika için değer fonksiyonunu çözmek için kullanılır. Optimal politika için değer fonksiyonunu doğrudan çözebildiğimizden, mevcut politika için değer fonksiyonunu çözmek açık bir şekilde zaman kaybıdır.

PI'nin yakınsaması hakkındaki sorunuza gelince, her bilgi durumu için stratejiyi geliştirirseniz, tüm oyun için stratejiyi geliştireceğiniz gerçeğini gözden kaçırabileceğinizi düşünüyorum. Karşı-olgusal Pişmanlık Azaltmaya aşina olsaydınız, bunu kanıtlamak da kolaydır - her bilgi durumu için pişmanlığın toplamı genel pişmanlığın üst sınırını oluşturmuştur ve böylece her bir durum için pişmanlığı en aza indirmek genel pişmanlığı en aza indirecektir. optimal politikaya yol açar.