2
Politika yineleme algoritması neden en uygun ilke ve değer işlevine yakınsar?
Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .V∗V∗V^*π∗π∗\pi^* Politika yinelemesini hatırlayın: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the …