2
Monte Carlo yöntemleri zamansal farklılıklara göre ne zaman tercih edilir?
Son zamanlarda Takviye Öğrenimi hakkında birçok araştırma yapıyorum. Sutton & Barto'nun Güçlendirme Öğrenimi: Çoğu için bir Giriş'i takip ettim . Markov Karar Süreçlerinin ne olduğunu ve Dinamik Programlama (DP), Monte Carlo ve Geçici Fark (DP) öğrenmesinin bunları çözmek için nasıl kullanılabileceğini biliyorum. Yaşadığım sorun , Monte Carlo'nun TD öğrenimine göre …