«policy-iteration» etiketlenmiş sorular

2
Politika yineleme algoritması neden en uygun ilke ve değer işlevine yakınsar?
Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .V∗V∗V^*π∗π∗\pi^* Politika yinelemesini hatırlayın: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.