Değer yinelemesi ile ilke yinelemesi arasındaki fark nedir?


94

Pekiştirmeli öğrenmede, politika yinelemesi ile değer yinelemesi arasındaki fark nedir?

Anladığım kadarıyla, değer yinelemesinde, en uygun politikayı çözmek için Bellman denklemini kullanıyorsunuz, oysa politika yinelemesinde rastgele bir politika seçiyorsunuz ve bu politikanın ödülünü buluyorsunuz.

Şüphem şu ki, PI'da rastgele bir politika seçiyorsanız, birkaç rastgele politika seçiyor olsak bile, en uygun politika nasıl garanti edilir?


13
Bu soruyu ai.stackexchange.com , stats.stackexchange.com veya datascience.stackexchange.com gibi web sitelerinde sormak daha uygun olurdu .
nbro

Yanıtlar:


124

Onlara yan yana bakalım. Karşılaştırma için anahtar kısımlar vurgulanmıştır. Figürler, Sutton ve Barto'nun: Reinforcement Learning: An Introduction kitabından alınmıştır .

görüntü açıklamasını buraya girin Anahtar noktaları:

  1. Politika yinelemesi şunları içerir: politika değerlendirmesi + politika geliştirme ve ikisi politika birleşene kadar yinelemeli olarak tekrarlanır.
  2. Değer yinelemesi şunları içerir: optimum değer işlevini bulma + bir politika çıkarma . İkisinin tekrarı yoktur, çünkü değer fonksiyonu bir kez optimal olduğunda, o zaman bunun dışındaki politika da optimal olmalıdır (yani yakınsamalı).
  3. Optimal değer işlevini bulma , aynı zamanda politika iyileştirme (maks. Nedeniyle) ve kesilmiş politika değerlendirmesinin (yakınsama ne olursa olsun tüm durumların yalnızca bir taramasından sonra v_ (s) 'nin yeniden atanması) kombinasyonu olarak da görülebilir.
  4. Politika değerlendirme ve optimum değer işlevini bulma algoritmaları, maks. İşlem dışında (vurgulandığı gibi) oldukça benzerdir.
  5. Benzer şekilde, politika geliştirme ve politika çıkarmanın temel adımı , birincisinin bir istikrar kontrolü içermesi dışında aynıdır.

Tecrübelerime göre, politika tekrarı daha hızlı olduğu değer yineleme , bir politika yakınsak olarak daha hızlı bir değerden. Bunun kitapta da anlatıldığını hatırlıyorum.

Sanırım kafa karışıklığı, daha önce de kafamı karıştıran bu biraz benzer terimlerden kaynaklanıyordu.


3
Politika yinelemesinin daha az yinelemeyle birleştiğini kabul ediyorum ve ayrıca birkaç yerde daha hızlı olduğunu okudum. Burlap'ta her iki yöntemle de bazı basit kutu dünyası ve labirent çözme deneyleri yaptım. Değer yinelemesinin daha fazla yineleme gerçekleştirdiğini ancak yakınsamaya ulaşmasının daha az zaman aldığını buldum. YMMV.
Ryan

1
@Chrom, muhalefeti okumalıydın. Kitaptan bir alıntı, kitabın 2017nov5 versiyonunun 65. sayfasından " Politika yinelemesi genellikle şaşırtıcı derecede az sayıda yinelemeyle birleşir. Bu, Şekil 4.1'deki örnekle gösterilmektedir ."
zyxue

3
Evet, Grid dünyasının çeşitli lezzetleriyle oynadım. Yinelemeler açısından "Daha Hızlı" nın muhtemelen PI'yi destekleyeceğini belirtmeye çalışıyordum. Ancak saniye cinsinden "daha hızlı" aslında VI'yı destekleyebilir.
Ryan

3
Açıklığa kavuşturmak gerekirse, politika yinelemesi daha az yineleme alacaktır, ancak değer yinelemesinden daha hesaplama açısından daha karmaşıktır; hangisinin daha hızlı olduğu ortama bağlıdır.
RF Nelson

2
Bunun eski bir yazı olduğunu biliyorum. Ama buna bakmanızı şiddetle tavsiye ediyorum ( medium.com/@m.alzantot/… ) Bağlantı bir kod sağlıyor ve benim için çok daha net hale getirdi.
tandem

73

Gelen politika tekrarı algoritmaları, rastgele bir politika ile başlar, daha sonra, daha sonra önceki değeri fonksiyonuna dayanan yeni (geliştirilmiş) politikasını bulmak ve benzeri politika (politika değerlendirme aşamasında) değeri fonksiyonunu bulmak. Bu süreçte, her bir politikanın bir öncekine göre katı bir gelişme olması garanti edilir (zaten optimal olmadığı sürece). Bir politika verildiğinde, değer fonksiyonu Bellman operatörü kullanılarak elde edilebilir .

İn değeri yineleme , rastgele bir değer fonksiyonu ile başlamak ve daha sonra en uygun değer fonksiyonunu elde edilene kadar, bir tekrarlayıcı işlemde yeni bir (geliştirilmiş) değer fonksiyonunu bulabilirsiniz. Optimum değer işlevinden en uygun ilkeyi kolayca türetebileceğinize dikkat edin. Bu süreç, optimallik Bellman operatörüne dayanmaktadır .

Bir anlamda, her iki algoritma da aynı çalışma prensibini paylaşır ve genelleştirilmiş politika yinelemesinin iki durumu olarak görülebilirler . Bununla birlikte, optimallik Bellman operatörü doğrusal olmayan ve bu nedenle farklı özelliklere sahip olan bir maks operatörü içerir . Ek olarak, salt değer yinelemesi ve salt ilke yinelemesi arasında karma yöntemler kullanmak da mümkündür.


1
Bununla ilgili güzel açıklama. Pekala, bunu politika yinelemesinde eklememe izin verin, belman beklenti denklemini kullanıyor ve değer yinelemesinde melman maksimum denklemini kullanıyor. Değer yinelemesi için daha az yineleme olabilir, ancak bir yineleme için çok fazla çalışma olabilir. Politika yinelemesi için daha fazla yineleme
Shamane Siriwardhana

Politika yinelemesinde de bir maks. aksi takdirde yeni değer işlevine göre politika nasıl güncellenir?
huangzonghao

Hayır, SARSA algoritması, politika yinelemesinin tipik bir örneğidir. Bu sözde kodda görebileceğiniz gibi ( incompleteideas.net/book/ebook/node64.html ), değer işlevi güncellemesi herhangi bir maksimum işleci içermiyor. Bununla birlikte, değer işlevinden en iyi eylemleri (yani açgözlü eylemler) seçmek için bir maks işlecini kastediyorsanız, evet, bu tür bir süreçte maks.
Pablo EM

11

Temel fark -

In Politikası İterasyon - Sen rastgele bir politika seçip ona karşılık gelen değer fonksiyonunu bulmak, sonra da önceki değer fonksiyonu dayalı yeni (geliştirilmiş) politikasını bulmak ve bu nedenle bu optimum politikaya yol açacaktır.

In Değer İterasyon - Sen rastgele ardından bir değer işlevini seçmenizi optimum değer işlevinden sonra derived optimum politikası optimum değer fonksiyonunu ulaşana kadar, iteratif sürecinde yeni (geliştirilmiş) değerinin fonksiyonu bulmak.

Politika yinelemesi, “Politika değerlendirme —-> Politika iyileştirme” ilkesine göre çalışır.

Değer Yinelemesi, "Optimal değer işlevi —-> optimum politika" ilkesine göre çalışır.


0

Bana göre, @zyxue'nin fikrinin aksine VI, genellikle PI'dan çok daha hızlıdır .

Nedeni çok açık, zaten bildiğiniz gibi, Bellman Denklemi belirli bir politika için değer fonksiyonunu çözmek için kullanılır. Optimal politika için değer fonksiyonunu doğrudan çözebildiğimizden, mevcut politika için değer fonksiyonunu çözmek açık bir şekilde zaman kaybıdır.

PI'nin yakınsaması hakkındaki sorunuza gelince, her bilgi durumu için stratejiyi geliştirirseniz, tüm oyun için stratejiyi geliştireceğiniz gerçeğini gözden kaçırabileceğinizi düşünüyorum. Karşı-olgusal Pişmanlık Azaltmaya aşina olsaydınız, bunu kanıtlamak da kolaydır - her bilgi durumu için pişmanlığın toplamı genel pişmanlığın üst sınırını oluşturmuştur ve böylece her bir durum için pişmanlığı en aza indirmek genel pişmanlığı en aza indirecektir. optimal politikaya yol açar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.