4
Q-Learning test sırasında neden epsilon-greedy kullanıyor?
DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve …