İstatistikler ve Büyük Veri deep-rl

Q-Learning test sırasında neden epsilon-greedy kullanıyor?

DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve …

18 machine-learning reinforcement-learning q-learning deep-rl

«deep-rl» etiketlenmiş sorular