Derin pekiştirici öğrenme neden kararsız?


13

DeepMind'in 2015 derin takviye öğrenimi makalesinde, "Önceki RL'yi sinir ağları ile birleştirmeye yönelik önceki girişimlerin dengesiz öğrenme nedeniyle büyük ölçüde başarısız olduğunu" belirtmektedir. Bu makalede, gözlemler arasındaki korelasyonlara dayanarak bunun bazı nedenleri listelenmektedir.

Lütfen birisi bunun ne anlama geldiğini açıklayabilir mi? Sinir ağının eğitimde mevcut olan, ancak testte bulunmayan bazı yapıları öğrendiği bir aşırı uyum şekli mi? Yoksa başka bir şey mi ifade ediyor?


Bildiri şu adreste bulunabilir: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Ve anlamaya çalıştığım bölüm:

Takviye öğrenmesinin, eylem-değer (Q olarak da bilinir) işlevini temsil etmek için bir sinir ağı gibi doğrusal olmayan bir fonksiyon tahmincisi kullanıldığında kararsız olduğu veya hatta saptığı bilinmektedir. Bu istikrarsızlığın birkaç nedeni vardır: gözlem dizisinde mevcut olan korelasyonlar, Q'daki küçük güncellemelerin politikayı önemli ölçüde değiştirebileceği ve bu nedenle veri dağılımını değiştirebileceği ve eylem değerleri ile hedef değerler arasındaki korelasyonlar.

Bu kararsızlıkları, iki temel fikir kullanan yeni bir Q-learning varyantı ile ele alıyoruz. İlk olarak, veriler üzerinde rasgele dağıtılan, böylece gözlem dizisindeki korelasyonları kaldıran ve veri dağılımındaki değişiklikler üzerinde yumuşayan, biyolojik olarak esinlenmiş bir mekanizma deneyimi yeniden adlandırması kullandık. İkincisi, eylem değerlerini (Q) yalnızca periyodik olarak güncellenen hedef değerlere göre ayarlayan ve böylece hedefle olan korelasyonları azaltan yinelemeli bir güncelleme kullandık.


Temsilcinizi ilişkisiz veriler konusunda eğittiğinizden emin olmak için her adımda temsilci belleğini güncellememelisiniz, verilerde bir ilintisizleştirme yapmak için bir depolama adımını düzeltmelisiniz.
narjes karmani

Yanıtlar:


11

Ana sorun, diğer birçok alanda olduğu gibi DNN'nin eğitilmesinin zor olabileceğidir. Burada, bir sorun giriş verilerinin korelasyonudur: bir video oyunu hakkında düşünürseniz (aslında algoritmalarını test etmek için bunları kullanırlarsa), bir adımdan sonra çekilen ekran görüntülerinin yüksek derecede ilişkili olduğunu hayal edebilirsiniz: oyun "sürekli" gelişir. Bu, NN'ler için bir sorun olabilir: benzer ve ilişkili girdiler üzerinde degrade inişlerinin birçok yinelemesinin yapılması, bunların üzerine geçilmesine ve / veya yerel bir minimuma düşmesine neden olabilir. Bu yüzden deneyim tekrarını kullanıyorlar: oyunun bir dizi "anlık görüntüsünü" saklıyorlar, sonra onları karıştırıyorlar ve daha sonra eğitim yapmak için birkaç adım atıyorlar. Bu şekilde, veri artık ilişkilendirilmez. Daha sonra, eğitim sırasında (NN tarafından tahmin edilen) Q değerlerinin devam eden politikayı nasıl değiştirebileceğini fark ederler,


"Karıştırılmış" verilerle, bir mini grupta örneklenmiş rastgele, sıra dışı deneyimler mi demek istediniz? Bu, sıralı deneyimler anlamına gelen "indirimli gelecek ödül" e nasıl karşılık gelir?
isobretatel
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.