«rl-an-introduction» etiketlenmiş sorular

3
REINFORCE algoritmasındaki indirim oranı neden iki kez görünüyor?
Takviye Öğrenme: Richard S. Sutton ve Andrew G. Barto'nun Bir Giriş (tam taslak, 5 Kasım 2017) adlı kitabını okuyordum . 271 Sayfasında, epizodik Monte-Carlo Politika-Gradyan Yöntemi için sözde kod sunulmaktadır. Bu sahte kod bakarak ben neden indirim oranı 2 kez, bir kez güncelleme durumunda ve dönüş içinde ikinci kez göründüğünü …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.