«q-learning» etiketlenmiş sorular

1
Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?
Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder. Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü …

1
DQN neden iki farklı ağ gerektirir?
Ben geçiyordu bu DQN uygulanması ve ben on line 124 ve 125 iki farklı Q ağları başlatıldı görüyoruz. Anladığım kadarıyla, bir ağın uygun eylemi ve ikinci ağın Bellman hatasını bulmak için hedef Q değerlerini tahmin ettiğini düşünüyorum. Neden sadece Q değerini tahmin eden ve bunu her iki durumda da kullanan …

2
Q-learning işlev yaklaşımı kullanılırken neden birleşmiyor?
Tablolu Q-öğrenme algoritmasının en uygun olanı bulması garanti edilir QQQ fonksiyonu, Q∗Q∗Q^*, öğrenme oranı ile ilgili aşağıdaki koşulların ( Robbins-Monro koşulları ) sağlanması şartıyla, ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty nerede αt(s,a)αt(s,a)\alpha_t(s, a) güncellenirken kullanılan öğrenme oranı QQQ durumla ilişkili değer sss ve aksiyon aaa zaman …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.