Yanıtlar:
RL'de önyükleme " aynı adımda tahmin edilen değer için güncelleme adımında bir veya daha fazla tahmini değer kullanılarak" olarak okunabilir .
Çoğu TD güncelleme kuralında, bu SARSA (0) güncellemesi gibi bir şey göreceksiniz:
Değeri gerçek değeri için bir tahmindir , ve aynı zamanda TD hedefi olarak adlandırılır. Bu bir bootstrap yöntemidir, çünkü kısmen başka bir Q değerini güncellemek için bir Q değeri kullanıyoruz. biçiminde , adımın hemen ödülü olarak ve aynı zamanda durum geçişinde küçük gözlemlenen gerçek veriler vardır .
Eşdeğer güncelleme kuralının olabileceği Monte Carlo ile kontrast:
Burada , zamanındaki toplam indirilmiş ödüldü, bu güncellemede, durum başladığını ve eylemi gerçekleştirdiğini varsayarak , bölümün sonuna kadar mevcut politikayı izledi. Teknik olarak, ; burada , terminal ödülünün ve durumunun zaman adımıdır. Özellikle, bu hedef değer hiç mevcut tahminleri (diğer Q değerlerinden) kullanmaz, sadece ortamdan bir dizi gözlem (yani ödül) kullanır. Bu nedenle, teknik olarak örneği olduğu için, gerçek değerinin tarafsız bir tahmini olması garanti edilir.Q ( s , a ) Q ( s , a ).
Bootstrapping'in ana dezavantajı, (veya ) başlangıç değerleriniz ne olursa olsun önyargılı olmasıdır . Bunlar büyük olasılıkla yanlıştır ve güncelleme sistemi çok fazla kendi kendine referans ve yeterli gerçek veri nedeniyle bir bütün olarak kararsız olabilir - bu sinir ağları kullanan politika dışı öğrenme (örneğin Q-öğrenme) ile ilgili bir sorundur.
Önyükleme olmadan, daha uzun yörüngeler kullanarak, genellikle yüksek varyans vardır , bu da pratikte, tahminler yakınsamadan önce daha fazla örneğe ihtiyacınız olduğu anlamına gelir. Bu nedenle, önyükleme ile ilgili sorunlara rağmen, eğer işe yarayabilirse, daha hızlı öğrenebilir ve genellikle Monte Carlo yaklaşımlarına göre tercih edilir.
Monte Carlo örnek tabanlı yöntemler ve farklı uzunluktaki yörüngelerden elde edilen sonuçların bir karışımını kullanarak önyükleme yapan tek adımlı TD yöntemleri arasında uzlaşabilirsiniz. Buna TD ( ) öğrenme denir ve SARSA ( ) veya Q ( ) gibi çeşitli özel yöntemler vardır .
Genel olarak, RL'deki önyükleme, bir değeri bazı kesin değerlere değil, bazı tahminlere göre güncellediğiniz anlamına gelir . Örneğin
Artımlı Monte Carlo Politika Değerlendirme güncellemeleri:
TD (0) Politika Değerlendirme güncellemeleri:
TD (0) 'de, geri dönüş durumu başlayarak olan tahmini ile (bootstrap) MC kullandığımız ise tam dönüş .R t + 1 + γ V ( S t + 1 ) G t