DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve eğitim sırasında başlangıçta çok sayıda rastgele eylem (keşif) yapılacak şekilde epsilon tavlanır, ancak eğitim ilerledikçe maksimum q değerlerine sahip birçok eylem alınır (işleme).
Daha sonra, test sırasında, bu epsilon-açgözlü yöntemi de kullanırlar, ancak çok düşük bir değerde epsilon ile, keşif üzerinde sömürüye karşı güçlü bir önyargı vardır ve rastgele bir eylem üzerinde en yüksek q değerine sahip eylemi seçmeyi tercih ederler. Bununla birlikte, bazen rastgele eylemler seçilmektedir (zamanın% 5'i).
Sorularım: Eğitimin daha önce yapıldığı göz önüne alındığında, bu noktada neden herhangi bir keşif gerekli? Sistem en uygun politikayı öğrendiyse, neden eylem her zaman en yüksek q değerine sahip olan olarak seçilemiyor? Keşif sadece eğitimde yapılmamalı ve sonra en uygun politika öğrenildikten sonra, temsilci tekrar tekrar en uygun eylemi seçebilir mi?
Teşekkürler!