Google'ın DeepMind Atari belgesini okuyorum ve "deneyim tekrarı" kavramını anlamaya çalışıyorum. Tecrübe tekrarı diğer pek çok takviye öğrenme makalesinde (özellikle AlphaGo kağıdı) ortaya çıkıyor, bu yüzden nasıl çalıştığını anlamak istiyorum. Aşağıda bazı alıntılar bulunmaktadır.
İlk olarak, veriler üzerinde rasgele dağıtılan, böylece gözlem dizisindeki korelasyonları kaldıran ve veri dağılımındaki değişiklikler üzerinde yumuşayan, biyolojik olarak esinlenmiş bir mekanizma deneyimi yeniden adlandırması kullandık.
Kağıt daha sonra şu şekilde hazırlanır:
Diğer stabil yöntemleri bu tür sinirsel donatılmış Q-yineleme olarak, takviye öğrenme ortamında sinir ağları eğitimi için mevcut olmakla birlikte, bu yöntemler ağlarının tekrarlanan eğitim dahil de novo tekrarlamalar yüzlerce. Sonuç olarak, bu yöntemler algoritmamızın aksine, büyük sinir ağlarında başarılı bir şekilde kullanılamayacak kadar verimsizdir. Bu referans bir değer fonksiyon parameterize ki burada, Şekil 1 'de gösterilen derin konvolüsyonel sinir ağı kullanılarak. tekrarda S ağ parametreleri (yani, ağırlık) olan . Deneyim replay gerçekleştirmek için, ajan deneyimleri depolamak her bir zaman basamağı, en veri kümesinde . Öğrenme sırasında , depolanan örnek havuzundan rastgele rasgele çizilen deneyim örneklerine (veya mini gruplarına) Q-öğrenme güncellemelerini uygularız . Yineleme Q-öğrenme güncelleme aşağıdaki kaybı fonksiyonunu kullanır:
Tecrübe tekrarı nedir ve Laymen'in terimleriyle faydaları nelerdir?