3
REINFORCE algoritmasındaki indirim oranı neden iki kez görünüyor?
Takviye Öğrenme: Richard S. Sutton ve Andrew G. Barto'nun Bir Giriş (tam taslak, 5 Kasım 2017) adlı kitabını okuyordum . 271 Sayfasında, epizodik Monte-Carlo Politika-Gradyan Yöntemi için sözde kod sunulmaktadır. Bu sahte kod bakarak ben neden indirim oranı 2 kez, bir kez güncelleme durumunda ve dönüş içinde ikinci kez göründüğünü …