«deep-rl» etiketlenmiş sorular

4
Q-Learning test sırasında neden epsilon-greedy kullanıyor?
DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.