DQN "Atari'yi Derin Takviye Öğrenimi ile Oynamak " başlıklı makalede şunları söyledi:
Deneyim tekrarıyla öğrenirken, Q-öğrenme seçimini motive eden politika dışı (mevcut parametrelerimiz örneği oluşturmak için kullanılanlardan farklı olduğu için) öğrenmenin gerekli olduğunu unutmayın.
Ne anlama geldiğini tam olarak anlamadım. Ne Sarsa kullanmak ve eylemi hatırlamıyorsam a'
biz almak olan eylem için s'
biz DQN yaptığımız gibi bizim bellekte, ve sonra örnek toplu ondan ve güncelleme Q? Ve aktör-eleştirel yöntemler (spesifik olarak A3C) deneyim tekrarını kullanabilir mi? Değilse, neden?
(s, a, r, s')
ve bu deneyimi tekrarlamak için çıkardım; Şimdi benim şimdiki politikası üstlenmesi gerektiğini söyledi varsayalıma'
üzerindes'
o zaman işareti,Q(s, a)
olmalır + Q(s', a')
ve gradyan arttırma yapmak. Sanırım politika üzerinde tekrar oynuyorum. Süreçle ilgili bir sorun var mı?