Eğer çevre de stokastikse optimal politika her zaman stokastik midir?


10

Eğer çevre de stokastik ise, optimal politika her zaman stokastik midir (yani, eyaletlerden eylemler üzerinde olasılık dağılımına bir harita)?

Sezgisel olarak, eğer ortam belirleyici ise (yani, etmen bir durumda ise)s ve harekete geçiyor a, sonra bir sonraki eyalet s hangi zaman adımı olursa olsun her zaman aynıdır), o zaman optimal politika da deterministik olmalıdır (yani, eylemlerden bir olasılık dağılımına değil, eyaletlerden eylemlere bir harita olmalıdır).


İlgili bir soru: mathoverflow.net/q/44677 .
nbro

Yanıtlar:


6

Eğer çevre de stokastik ise, optimal politika her zaman stokastik midir (yani, eyaletlerden eylemler üzerinde olasılık dağılımına bir harita)?

Hayır.

İdeal bir politika genellikle aşağıdakiler olmadığı sürece belirleyicidir:

  • Önemli durum bilgisi eksik (POMDP). Örneğin, aracının tam yerini bilmesine veya önceki durumları hatırlamasına izin verilmediği ve verildiği durumun konumlar arasında ayrım yapmak için yeterli olmadığı bir haritada. Hedef belirli bir son konuma ulaşmaksa, en uygun politika sıkışmayı önlemek için bazı rastgele hareketler içerebilir. Bu durumda ortamın deterministik olabileceğini (tüm devleti görebilen birinin bakış açısından), ancak yine de bunu çözmek için stokastik bir politika gerektirmesine dikkat edin.

  • Deterministik bir politikanın çevre veya başka bir ajan tarafından cezalandırılabileceği bir tür minimax oyun teorisi senaryosu vardır. Makas / kağıt / taş veya mahkum ikilemini düşünün.

Sezgisel olarak, eğer ortam belirleyiciyse (yani, etmen bir durumda ise ve harekete geçerse 𝑎, o zaman bir sonraki durum which 𝑠 her zaman aynıdır, hangi zaman adımı ne olursa olsun), o zaman optimal politika da belirleyici olmalıdır (yani, eylemler üzerinden bir olasılık dağılımına değil, eyaletlerden eylemlere bir harita olmalıdır).

Bu makul görünüyor, ancak bir sezgiyi bir değer fonksiyonuna dayanan herhangi bir yöntemle daha ileriye götürebilirsiniz:

Eğer optimal değeri fonksiyonunu bulduk Eğer, sonra saygı ile açgözlülükle hareket olduğunu optimum politikası.

Yukarıdaki ifade, Bellman optimallik denkleminin sadece doğal bir dilde yeniden ifadesidir:

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

yani her zaman ödül artıran ve bir sonraki adımın iskonto edilmiş değerini maksimuma çıkaran eylem seçildiğinde optimal değerler elde edilir. maxa işlem deterministiktir (gerekirse sıralı bir eylem listesi ile maksimum değer için bağları belirleyici bir şekilde koparabilirsiniz).

Bu nedenle, bir MDP tarafından modellenebilen ve değer tabanlı bir yöntemle (örneğin değer yinelemesi, Q-öğrenme) çözülebilen herhangi bir ortamın deterministik bir optimal politikası vardır.

Böyle bir ortamda optimal çözüm hiç stokastik olmayabilir (yani, deterministik optimal politikaya herhangi bir rastgelelik eklerseniz, politika kesinlikle daha kötü hale gelecektir). Bununla birlikte, bir veya daha fazla durumda bir veya daha fazla eylem için maksimum değer için bağlar olduğunda, birden çok eşdeğer optimal ve deterministik politika vardır. Bunları herhangi bir kombinasyon halinde karıştıran stokastik bir politika oluşturabilirsiniz ve bu da optimal olacaktır.


1
"Böyle bir ortamda stokastik bir politikanın optimal olmaması mümkündür" demek deterministik politika mıdır?
nbro

2
@nbro: Hayır, gerçekten optimal bir stokastik politika yok demek istiyorum. Bu genellikle böyledir. Örneğin basit bir labirent çözücüsünü düşünün. Optimal deterministik çözüm başlangıçtan çıkışa tek bir yolsa, herhangi bir rastgele eklenti eklemek politikayı kesinlikle daha da kötüleştirir. Ortam rastgele gürültü eklerse bu durum değişmez (örneğin, hareketler bazen başarısız olur)
Neil Slater

2
Şimdi anlıyorum. Her zaman determinist bir politika olduğunu söylüyorsunuz, o zaman stokastik ve deterministik politikadan türetilen bir politika muhtemelen en uygun deterministik politikadan daha kötü olacaktır.
nbro

1
@nbro: Evet, hepsi bu.
Neil Slater

5

Hayır derdim.

Örneğin, çok kollu haydut sorununu ele alalım . Yani, varn hepsinin size bir ödül verme olasılığı olan silahlar (örneğin 1 puan), pben, ben 1 ile 1 arasında olmak n. Bu basit bir stokastik ortam: bu tek devletli bir ortam, ama yine de bir ortam.

Ama açıkçası en uygun politika en yüksek kolun seçilmesi pben. Yani bu stokastik bir politika değil.

Obviously, if you are in an environment where you play against other agent (a game theory setting), your optimal policy will certainly be stochastic (think of a poker game, for example).


Why would it be obvious to always choose the arm with the highest pben? pben bir olasılıktır, bu yüzden her zaman kol seçerseniz her zaman en yüksek miktarda (en azından sınırlı bir sürede) ödül alacağınızdan emin değilsiniz. ben.
nbro

2
@ nbro: Beklentide kesin olan şey budur, bu da optimum politikanın en üst düzeye çıkarır. Politikalar, rasgele sayı üreteçlerini ikinci olarak tahmin etmeye çalışmaz, bu imkansız kabul edilir (sistemin bazı iç durumlarından dolayı mümkünse, bu dahili durumu modele eklemeniz veya POMDP olarak davranmanız gerekir)
Neil Slater

@NeilSlater Tamam. Fakat zaman sınırlı ise sonuç değişir mi? Oynamak için sınırlı bir süreniz varsa, sanırım beklentisi de oyun için uygun zamanı düşünmelidir.
nbro

2
@nbro: Bu, kararlarınızı değiştirebilir, ancak gerçekte en uygun politika ile ilgili değildir. Eşkıya kolları için en uygun politika, en iyi kolu kullanmak konusunda hala belirleyicidir, ancak bunu bilmiyorsunuzdur. Bu keşif ve sömürü ile ilgilidir. Sen olabilir ifade belki "bir haydut sorunu keşfetmek için optimum bir politikası" sahip olarak. Örneğin Sutton & Barto'da kullanılan terminoloji değil, ama belki bazı taraftarlar bunu söylüyor, bilmiyorum. . .
Neil Slater

1
Ortam, aynı kararı tekrar tekrar karşı karşıya bıraktığınız yalnızca bir durumu içerir: hangi kolu seçmem gerekiyor?
Adrien Forbu

0

Kendini bir aktör olarak bulduğun, çeşitli bilinmeyen zirveleri ve olukları olan bir olasılık manzarasını düşünüyorum. İyi bir deterministik yaklaşım her zaman sizi en yakın yerel optimumya götürür, ancak mutlaka küresel optimumluğa götürmez. Küresel optimumu bulmak için, bir MCMC algoritması gibi bir şey, yerel bir optimumdan kaçmak ve küresel optimumu bulmak için geçici olarak daha kötü bir sonucu geçici olarak kabul etmeyi sağlayacaktır. Sezgim, stokastik bir ortamda bunun da doğru olacağı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.