1
Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?
Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder. Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü …