DeepMind'in 2015 derin takviye öğrenimi makalesinde, "Önceki RL'yi sinir ağları ile birleştirmeye yönelik önceki girişimlerin dengesiz öğrenme nedeniyle büyük ölçüde başarısız olduğunu" belirtmektedir. Bu makalede, gözlemler arasındaki korelasyonlara dayanarak bunun bazı nedenleri listelenmektedir.
Lütfen birisi bunun ne anlama geldiğini açıklayabilir mi? Sinir ağının eğitimde mevcut olan, ancak testte bulunmayan bazı yapıları öğrendiği bir aşırı uyum şekli mi? Yoksa başka bir şey mi ifade ediyor?
Bildiri şu adreste bulunabilir: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Ve anlamaya çalıştığım bölüm:
Takviye öğrenmesinin, eylem-değer (Q olarak da bilinir) işlevini temsil etmek için bir sinir ağı gibi doğrusal olmayan bir fonksiyon tahmincisi kullanıldığında kararsız olduğu veya hatta saptığı bilinmektedir. Bu istikrarsızlığın birkaç nedeni vardır: gözlem dizisinde mevcut olan korelasyonlar, Q'daki küçük güncellemelerin politikayı önemli ölçüde değiştirebileceği ve bu nedenle veri dağılımını değiştirebileceği ve eylem değerleri ile hedef değerler arasındaki korelasyonlar.
Bu kararsızlıkları, iki temel fikir kullanan yeni bir Q-learning varyantı ile ele alıyoruz. İlk olarak, veriler üzerinde rasgele dağıtılan, böylece gözlem dizisindeki korelasyonları kaldıran ve veri dağılımındaki değişiklikler üzerinde yumuşayan, biyolojik olarak esinlenmiş bir mekanizma deneyimi yeniden adlandırması kullandık. İkincisi, eylem değerlerini (Q) yalnızca periyodik olarak güncellenen hedef değerlere göre ayarlayan ve böylece hedefle olan korelasyonları azaltan yinelemeli bir güncelleme kullandık.