Robotikte, takviye öğrenme tekniği bir robotun kontrol modelini bulmak için kullanılır. Ne yazık ki, çoğu politika gradyan yöntemi istatistiksel olarak önyargılıdır ve bu da robotu güvenli olmayan bir duruma getirebilir, bkz. Sayfa 2, Jan Peters ve Stefan Schaal: Motor becerilerin politika gradyanlarıyla takviye öğrenimi, 2008
Motor ilkel öğrenme ile sorunun üstesinden gelmek mümkündür çünkü politika gradyan parametresi optimizasyonu öğrenme adımlarını hedefe yönlendirir.
alıntı: “Degrade tahmini tarafsız ve öğrenme oranları toplamı (a) = 0 karşılarsa, öğrenme sürecinin en azından yerel bir minimum seviyeye yaklaşacağı garanti edilir [...] Bu nedenle, politika gradyanını yalnızca üretilen verilerden tahmin etmemiz gerekir bir görevin yürütülmesi sırasında. ”(Aynı kağıdın 4. sayfası)
In Berkeley RL sınıf için ödev Sorun 1, bu temel timestep t devletin bir fonksiyonudur çıkarılır eğer politika degrade hala tarafsız olduğunu göstermek ister.
Böyle bir ispatın ilk adımının ne olabileceği konusunda mücadele ediyorum. Birisi beni doğru yönde gösterebilir mi? İlk düşüncem, b (st) 'nin beklentisini T'ye koşullu hale getirmek için bir şekilde toplam beklenti yasasını kullanmaktı , ama emin değilim. Şimdiden teşekkürler :)