Eğer çevre de stokastik ise, optimal politika her zaman stokastik midir (yani, eyaletlerden eylemler üzerinde olasılık dağılımına bir harita)?
Hayır.
İdeal bir politika genellikle aşağıdakiler olmadığı sürece belirleyicidir:
Önemli durum bilgisi eksik (POMDP). Örneğin, aracının tam yerini bilmesine veya önceki durumları hatırlamasına izin verilmediği ve verildiği durumun konumlar arasında ayrım yapmak için yeterli olmadığı bir haritada. Hedef belirli bir son konuma ulaşmaksa, en uygun politika sıkışmayı önlemek için bazı rastgele hareketler içerebilir. Bu durumda ortamın deterministik olabileceğini (tüm devleti görebilen birinin bakış açısından), ancak yine de bunu çözmek için stokastik bir politika gerektirmesine dikkat edin.
Deterministik bir politikanın çevre veya başka bir ajan tarafından cezalandırılabileceği bir tür minimax oyun teorisi senaryosu vardır. Makas / kağıt / taş veya mahkum ikilemini düşünün.
Sezgisel olarak, eğer ortam belirleyiciyse (yani, etmen bir durumda ise ve harekete geçerse 𝑎, o zaman bir sonraki durum which 𝑠 her zaman aynıdır, hangi zaman adımı ne olursa olsun), o zaman optimal politika da belirleyici olmalıdır (yani, eylemler üzerinden bir olasılık dağılımına değil, eyaletlerden eylemlere bir harita olmalıdır).
Bu makul görünüyor, ancak bir sezgiyi bir değer fonksiyonuna dayanan herhangi bir yöntemle daha ileriye götürebilirsiniz:
Eğer optimal değeri fonksiyonunu bulduk Eğer, sonra saygı ile açgözlülükle hareket olduğunu optimum politikası.
Yukarıdaki ifade, Bellman optimallik denkleminin sadece doğal bir dilde yeniden ifadesidir:
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
yani her zaman ödül artıran ve bir sonraki adımın iskonto edilmiş değerini maksimuma çıkaran eylem seçildiğinde optimal değerler elde edilir. maxa işlem deterministiktir (gerekirse sıralı bir eylem listesi ile maksimum değer için bağları belirleyici bir şekilde koparabilirsiniz).
Bu nedenle, bir MDP tarafından modellenebilen ve değer tabanlı bir yöntemle (örneğin değer yinelemesi, Q-öğrenme) çözülebilen herhangi bir ortamın deterministik bir optimal politikası vardır.
Böyle bir ortamda optimal çözüm hiç stokastik olmayabilir (yani, deterministik optimal politikaya herhangi bir rastgelelik eklerseniz, politika kesinlikle daha kötü hale gelecektir). Bununla birlikte, bir veya daha fazla durumda bir veya daha fazla eylem için maksimum değer için bağlar olduğunda, birden çok eşdeğer optimal ve deterministik politika vardır. Bunları herhangi bir kombinasyon halinde karıştıran stokastik bir politika oluşturabilirsiniz ve bu da optimal olacaktır.