«deep-rl» etiketlenmiş sorular

2
Q-learning işlev yaklaşımı kullanılırken neden birleşmiyor?
Tablolu Q-öğrenme algoritmasının en uygun olanı bulması garanti edilir QQQ fonksiyonu, Q∗Q∗Q^*, öğrenme oranı ile ilgili aşağıdaki koşulların ( Robbins-Monro koşulları ) sağlanması şartıyla, ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty nerede αt(s,a)αt(s,a)\alpha_t(s, a) güncellenirken kullanılan öğrenme oranı QQQ durumla ilişkili değer sss ve aksiyon aaa zaman …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.