Q-learning işlev yaklaşımı kullanılırken neden birleşmiyor?


12

Tablolu Q-öğrenme algoritmasının en uygun olanı bulması garanti edilir Q fonksiyonu, Q, öğrenme oranı ile ilgili aşağıdaki koşulların ( Robbins-Monro koşulları ) sağlanması şartıyla,

  1. tαt(s,a)=
  2. tαt2(s,a)<

nerede αt(s,a) güncellenirken kullanılan öğrenme oranı Q durumla ilişkili değer s ve aksiyon a zaman zaman adım t, nerede 0αt(s,a)<1 tüm eyaletler için doğru olduğu varsayılır s ve eylemler a.

Görünüşe göre, 0αt(s,a)<1, iki koşulun geçerli olabilmesi için, tüm devlet-eylem çiftlerinin sonsuz sık sık ziyaret edilmesi gerekir: Bu, Takviye Öğrenimi: Bir Giriş , bunun yaygın olarak bilinmesi ve bunun mantığıdır. kullanımının arkasındaϵ- eğitim sırasında çeşitli politikalar (veya benzer politikalar).

Bunu gösteren eksiksiz bir kanıt Q-öğrenme en uygun olanı bulur Qişlevi Q-learning'in Yakınsaması: Basit Bir Kanıt (Francisco S. Melo tarafından) makalesinde bulunabilir . Kasılma haritalaması gibi kavramları ,QBu daralma operatörünün sabit noktası olan takviye öğreniminde Bellman operatörü nedir? bölümüne bakınız . Aynı zamanda rastgele bir süreçle ilgili bir teorem (n. 2) kullanır.0, birkaç varsayım verildi. (Eğer bir matematik adamı değilseniz kanıtı takip etmek kolay olmayabilir.)

Sinir ağı, Q fonksiyonu, yakınsama garanti yapmak Q-öğrenme hala devam ediyor mu? Fonksiyon yaklaşımı kullanılırken neden Q-öğrenme birleşiyor (ya da değil)? Bu tür yakınsamaların resmi bir kanıtı var mıQ-fonksiyon yaklaşımı kullanarak öğrenme?

Sadece yakınsama olmamasının arkasındaki sezgiyi verenlerden farklı türde cevaplar arıyorum Q- Resmi bir kanıt (veya resmi bir kanıtı olan bir kağıda bağlantı) sağlayanlara işlev yaklaşımı kullanırken öğrenme.


2
Harika bir soru!
John Doucette

Referans verdiğiniz kitap, bölüm 11'deki bu sorundan bahseder, böylece okuyabilirsiniz. Ayrıca, bunun neden olduğunun resmi bir kanıtı olduğunu sanmıyorum, ancak basit ortamlarda bile (örn. Tsitsiklis ve van Roy) farklılık gösteren birkaç örnek var.
Brale

Yanıtlar:


8

İşte sezgisel bir açıklama cevabı:

Fonksiyon yaklaştırması herhangi bir parametreleştirilebilir fonksiyon ile yapılabilir. Bir sorunu düşününQ(s,a) nerede boşluk s olumlu gerçekler, a dır-dir 0 veya 1ve gerçek Q fonksiyonu Q(s,0)=s2, ve Q(s,1)=2s2, tüm eyaletler için. İşlev yaklaşıklayıcınızQ(s,a)=ms+na+b, doğru olanı doğru bir şekilde temsil edebilecek hiçbir parametre yoktur. Qişlevini (bir satırı ikinci dereceden bir işleve sığdırmaya çalışıyoruz). Sonuç olarak, iyi bir öğrenme oranı seçmiş olsanız ve tüm eyaletleri sonsuz sıklıkta ziyaret etseniz bile, yaklaştırma işleviniz asla doğruya yaklaşmayacaktır.Q işlevi.

Ve işte biraz daha ayrıntı:

  1. Sinir ağları yaklaşık fonksiyonlar. Bir fonksiyon, yaklaşık olarak daha fazla veya daha az karmaşık polinomlar kullanılarak daha büyük veya daha düşük derecelere yakınlaştırılabilir. Taylor Serisi yaklaşımına aşina iseniz, bu fikir oldukça doğal görünmelidir. Değilse, aralık boyunca sinüs dalgası gibi bir işlevi düşünün [0-π/2). Düz bir çizgi ile yaklaşık (kötü) tahmin edebilirsiniz. Karesel bir eğriyle daha iyi tahmin edebilirsiniz. Eğriye yaklaşmak için kullandığımız polinom derecesini artırarak, eğriye daha fazla uyan bir şey elde edebiliriz.
  2. Sinir ağları evrensel fonksiyon tahmin edicileridir . Bu, bir işleviniz varsa, oluşturduğunuz işlevi keyfi olarak kesin bir dereceye kadar tahmin edebilecek kadar derin veya geniş bir sinir ağı oluşturabileceğiniz anlamına gelir. Bununla birlikte, seçtiğiniz herhangi bir ağ topolojisi , sonsuz genişlikte veya sonsuz derinlikte olmadıkça, tüm işlevleri öğrenemez . Bu, doğru parametreleri seçerseniz, bir çizginin herhangi iki noktaya sığabileceğine, ancak 3 noktaya nasıl uymayacağına benzer. Belirli bir sonlu genişlik veya derinliğe sahip bir ağ seçerseniz, her zaman uygun bir şekilde uyması için birkaç nöron gerektiren bir işlev oluşturabilirim.

  3. Q-learning'in sınırları sadece Q-fonksiyonunun temsili kesin olduğunda geçerlidir . Nedenini görmek için, Q-fonksiyonunuza doğrusal bir enterpolasyon ile yaklaşmayı seçtiğinizi varsayalım. Gerçek işlev herhangi bir şekil alabilirse, enterpolasyonumuzdaki hata açıkça XOR benzeri bir Q işlevi işlevi oluşturarak sınırsız büyük hale getirilebilir ve hiçbir ekstra zaman veya veri bu hatayı azaltmamıza izin vermez . Eğer bir işlev Approximator kullanın ve uyum deneyin gerçek işlevi ise değilişlevin keyfi olarak yaklaşık olarak tahmin edebileceği bir şey varsa, modeliniz iyi seçilmiş bir öğrenme oranı ve keşif oranı ile bile düzgün bir şekilde birleşmeyecektir. Hesaplamalı öğrenme teorisi terminolojisini kullanarak, Q-öğrenme için yakınsama kanıtlarının, gerçek Q-fonksiyonunun, modelinizi seçeceğiniz hipotez alanının bir üyesi olduğunu dolaylı olarak varsaydığını söyleyebiliriz.


"Q-learning'in sınırlarının sadece Q-fonksiyonunun temsili kesin olduğunda geçerli" olduğunu söylediğim kanıttan nerede görebiliriz?
nbro

Bu nedenle, bazı sinir ağlarını (mimari) kullanarak herhangi bir (makul) işleve yaklaşabiliriz, ancak sabit bir sinir ağı mimarisi göz önüne alındığında Z (ki bu, eğitim aşamasının başlangıcında Q-öğrenme), Q-öğrenme bu belirli mimariyi kullanarak birbirine yaklaşmayabilir Z, Çünkü Z temsil edecek kadar anlamlı olmayabilir Q.
nbro

@nbro Kanıt açıkça bunu söylemez, ancak Q işlevinin tam bir temsilini varsayar (yani, her durum / eylem çifti için kesin değerler hesaplanır ve saklanır). Sonsuz durum uzayları için, bu tam temsilin en kötü durumda sonsuz büyük olabileceği açıktır (basit örnek: Q (s, a) = pi'nin s. Basamağı olsun). İkinci yorumunuz iyi özetliyor. Daha resmi olarak, eğer gerçek hipotez Q *, bir model seçtiğiniz H hipotez uzayının bir elemanı değilse, sonsuz zaman veya verilerle bile Q * 'ya yaklaşamazsınız.
John Doucette

4

Bildiğim kadarıyla, tam olarak neden / ne zaman yakınsama eksikliği aldığımızda - veya daha da kötüsü, bazen ayrışma tehlikesi hakkında gerçekten açık ve resmi bir anlayış elde etmek hala açık bir problemdir. Genellikle "ölümcül üçlüye" atfedilir (Sutton ve Barto'nun kitabının ikinci baskısının 11.3'üne bakın), aşağıdakilerin kombinasyonu:

  1. İşlev yaklaşımı VE
  2. Bootstrapping (eğitim hedeflerimizin hesaplanmasında kendi değer tahminlerimizi kullanarak, Q-öğrenme), VE
  3. Politika dışı eğitim (Q-öğrenme gerçekten politika dışıdır).

Bu bize sadece yakınsama eksikliği ve / veya ayrışma tehlikesi olan vakaların (muhtemelen ayrıntılı olmayan) bir açıklamasını verir, ancak yine de bu durumlarda neden olduğunu bize söylemez .


John'un cevabı , sorunun bir kısmının basitçe işlev yaklaşımı kullanımının, işlev yaklaşıklayıcınızın gerçeki temsil edecek kadar güçlü olmadığı durumlara kolayca yol açabileceği sezgisini sağlar.Q işlevinde, her zaman farklı bir işlev tahmincisine geçmeden kurtulmak imkansız olan yaklaşık hatalar olabilir.

Şahsen, bu sezginin algoritmanın neden en uygun çözüme yakınsamayı garanti edemediğini anlamaya yardımcı olduğunu düşünüyorum, ancak yine de sezgisel olarak verilen olası en iyi yaklaşım olan "kararlı" bir çözüme "yakınsama" yeteneğini bekleyebilirim. seçilen işlev gösterimindeki doğal kısıtlamalar. Gerçekten de, en azından doğrusal fonksiyon tahmin edicilerin olduğu durumlarda, politikada eğitime (örneğin Sarsa) geçtiğimizde pratikte gözlemlediğimiz şey budur.


Bu soruya ilişkin kendi sezgim genellikle sorunun önemli bir kaynağının genelleme olduğudur . Tablo ayarında, tamamen yalıtılmış girişlerimiz varQ(s,a) hepsi için (s,a)çiftleri. Bir giriş için tahminimizi her güncellediğimizde, diğer tüm girişleri değiştirmeden bırakır (en azından başlangıçta - güncelleme kuralındaki önyükleme nedeniyle gelecekteki güncellemelerde diğer girişler üzerinde bazı etkiler olabilir). Gibi algoritmalar için güncelleme kurallarıQ-öğrenme ve Sarsa bazen "şanssızlık" alırsak "yanlış" yöne doğru güncellenebilir, ancak beklenti içinde genellikle doğru "yöne" doğru güncelleme yaparlar. Sezgisel olarak, bu, tablo ayarında, beklenti içinde, herhangi bir girişteki hataları, muhtemelen başka girişlere zarar vermeden, yavaş yavaş, ayrı ayrı çözeceğimiz anlamına gelir .

İşlev yaklaşımı ile, Q(s,a) biri için tahmin (s,a)çifti, potansiyel olarak da etkileyebilir tüm yönelik diğer tahminlerin tüm diğer devlet-aksiyon çiftleri. Sezgisel olarak, bu, artık tablo ayarında olduğu gibi girişlerin güzel bir şekilde yalıtılmadığı anlamına gelir ve bir girişteki "düzeltmek" hataları, diğer girişlere yeni hatalar ekleme riski taşıyabilir. Bununla birlikte, John'un yanıtı gibi, tüm sezgi gerçekten politika üstü algoritmalar için de geçerli olacak, bu yüzden hala neyin özel olduğunu açıklamıyorQ-öğrenme (ve diğer politika dışı yaklaşımlar).


Bu konuyla ilgili son zamanlarda ilginç bir makale, Sanrısal Olmayan Q-öğrenme ve Değer İterasyonudur . Fonksiyon yaklaşımını, aşağıdakileri içeren güncelleme kuralları ile birleştiren algoritmalarda "sanrı yanlılığı" sorununamax operator, such as Q-learning (it's probably not unique to the max operator, but probably applies to off-policy in general?).

The problem is as follows. Suppose we run this Q-learning update for a state-action pair (s,a):

Q(s,a)Q(s,a)+α[maxaQ(s,a)Q(s,a)].

The value estimate maxaQ(s,a) used here is based on the assumption that we execute a policy that is greedy with respect to older versions of our Q estimates over a -- possibly very long -- trajectory. As already discussed in some of the previous answers, our function approximator has a limited representational capacity, and updates to one state-action pair may affect value estimates for other state-action pairs. This means that, after triggering our update to Q(s,a), our function approximator may no longer be able to simultaneously express the policy that leads to the high returns that our maxaQ(s,a) estimate was based on. The authors of this paper say that the algorithm is "delusional". It performs an update under the assumption that, down the line, it can still obtain large returns, but it may no longer actually be powerful enough to obtain those returns with the new version of the function approximator's parameters.


Finally, another (even more recent) paper that I suspect is relevant to this question is Diagnosing Bottlenecks in Deep Q-learning Algorithms, but unfortunately I have not yet had the time to read it in sufficient detail and adequately summarise it.


1
But isn't the use of a neural network also due to the assumption that certain states are very similar to each? Very similar states (e.g. successive frames in a game) often have very similar (or same) optimal actions, so I am not sure that explanation in the first paper is valid (I should read it to fully understand their main points).
nbro

1
@nbro Yeah, often generalisation is considered to be an advantage rather than a problem precisely because of that reason. If it works out as "intended", it can be very powerful and speed up learning because we transfer whatever we learn to similar states / similar actions, rather than learning for every slightly different state/action in isolation. But it can also lead to problems, especially in theory but also in practice. It's like a "double-edged sword" I suppose.
Dennis Soemers

1
@DennisSoemers Super interesting answer. The Non-delusional Q-learning point makes a ton of sense. Finding the correct Q-function means finding a fixed point for your update rule, but it sure looks like function approximation could lead to cyclic updates in Q-learning if you think about it this way.
John Doucette
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.