«policy-gradients» etiketlenmiş sorular

1
Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?
Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder. Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.