2
Taban çizgisi neden bazı zamanlardaki tarafsızlığa koşulludur?
Robotikte, takviye öğrenme tekniği bir robotun kontrol modelini bulmak için kullanılır. Ne yazık ki, çoğu politika gradyan yöntemi istatistiksel olarak önyargılıdır ve bu da robotu güvenli olmayan bir duruma getirebilir, bkz. Sayfa 2, Jan Peters ve Stefan Schaal: Motor becerilerin politika gradyanlarıyla takviye öğrenimi, 2008 Motor ilkel öğrenme ile sorunun …