Bildiğim kadarıyla, tam olarak neden / ne zaman yakınsama eksikliği aldığımızda - veya daha da kötüsü, bazen ayrışma tehlikesi hakkında gerçekten açık ve resmi bir anlayış elde etmek hala açık bir problemdir. Genellikle "ölümcül üçlüye" atfedilir (Sutton ve Barto'nun kitabının ikinci baskısının 11.3'üne bakın), aşağıdakilerin kombinasyonu:
- İşlev yaklaşımı VE
- Bootstrapping (eğitim hedeflerimizin hesaplanmasında kendi değer tahminlerimizi kullanarak, Q-öğrenme), VE
- Politika dışı eğitim (Q-öğrenme gerçekten politika dışıdır).
Bu bize sadece yakınsama eksikliği ve / veya ayrışma tehlikesi olan vakaların (muhtemelen ayrıntılı olmayan) bir açıklamasını verir, ancak yine de bu durumlarda neden olduğunu bize söylemez .
John'un cevabı , sorunun bir kısmının basitçe işlev yaklaşımı kullanımının, işlev yaklaşıklayıcınızın gerçeki temsil edecek kadar güçlü olmadığı durumlara kolayca yol açabileceği sezgisini sağlar.Q∗ işlevinde, her zaman farklı bir işlev tahmincisine geçmeden kurtulmak imkansız olan yaklaşık hatalar olabilir.
Şahsen, bu sezginin algoritmanın neden en uygun çözüme yakınsamayı garanti edemediğini anlamaya yardımcı olduğunu düşünüyorum, ancak yine de sezgisel olarak verilen olası en iyi yaklaşım olan "kararlı" bir çözüme "yakınsama" yeteneğini bekleyebilirim. seçilen işlev gösterimindeki doğal kısıtlamalar. Gerçekten de, en azından doğrusal fonksiyon tahmin edicilerin olduğu durumlarda, politikada eğitime (örneğin Sarsa) geçtiğimizde pratikte gözlemlediğimiz şey budur.
Bu soruya ilişkin kendi sezgim genellikle sorunun önemli bir kaynağının genelleme olduğudur . Tablo ayarında, tamamen yalıtılmış girişlerimiz varQ(s,a) hepsi için (s,a)çiftleri. Bir giriş için tahminimizi her güncellediğimizde, diğer tüm girişleri değiştirmeden bırakır (en azından başlangıçta - güncelleme kuralındaki önyükleme nedeniyle gelecekteki güncellemelerde diğer girişler üzerinde bazı etkiler olabilir). Gibi algoritmalar için güncelleme kurallarıQ-öğrenme ve Sarsa bazen "şanssızlık" alırsak "yanlış" yöne doğru güncellenebilir, ancak beklenti içinde genellikle doğru "yöne" doğru güncelleme yaparlar. Sezgisel olarak, bu, tablo ayarında, beklenti içinde, herhangi bir girişteki hataları, muhtemelen başka girişlere zarar vermeden, yavaş yavaş, ayrı ayrı çözeceğimiz anlamına gelir .
İşlev yaklaşımı ile, Q(s,a) biri için tahmin (s,a)çifti, potansiyel olarak da etkileyebilir tüm yönelik diğer tahminlerin tüm diğer devlet-aksiyon çiftleri. Sezgisel olarak, bu, artık tablo ayarında olduğu gibi girişlerin güzel bir şekilde yalıtılmadığı anlamına gelir ve bir girişteki "düzeltmek" hataları, diğer girişlere yeni hatalar ekleme riski taşıyabilir. Bununla birlikte, John'un yanıtı gibi, tüm sezgi gerçekten politika üstü algoritmalar için de geçerli olacak, bu yüzden hala neyin özel olduğunu açıklamıyorQ-öğrenme (ve diğer politika dışı yaklaşımlar).
Bu konuyla ilgili son zamanlarda ilginç bir makale, Sanrısal Olmayan Q-öğrenme ve Değer İterasyonudur . Fonksiyon yaklaşımını, aşağıdakileri içeren güncelleme kuralları ile birleştiren algoritmalarda "sanrı yanlılığı" sorununamax operator, such as Q-learning (it's probably not unique to the max operator, but probably applies to off-policy in general?).
The problem is as follows. Suppose we run this Q-learning update for a state-action pair (s,a):
Q(s,a)←Q(s,a)+α[maxa′Q(s′,a′)−Q(s,a)].
The value estimate maxa′Q(s′,a′) used here is based on the assumption that we execute a policy that is greedy with respect to older versions of our Q estimates over a -- possibly very long -- trajectory. As already discussed in some of the previous answers, our function approximator has a limited representational capacity, and updates to one state-action pair may affect value estimates for other state-action pairs. This means that, after triggering our update to Q(s,a), our function approximator may no longer be able to simultaneously express the policy that leads to the high returns that our maxa′Q(s′,a′) estimate was based on. The authors of this paper say that the algorithm is "delusional". It performs an update under the assumption that, down the line, it can still obtain large returns, but it may no longer actually be powerful enough to obtain those returns with the new version of the function approximator's parameters.
Finally, another (even more recent) paper that I suspect is relevant to this question is Diagnosing Bottlenecks in Deep Q-learning Algorithms, but unfortunately I have not yet had the time to read it in sufficient detail and adequately summarise it.