TD öğrenimi ve DP ile ilgili temel sorun, adım güncellemelerinin öğrenme parametrelerinin başlangıç koşullarına önyargılı olmasıdır . Önyükleme işlemi genellikle, geçerli tahminler sonuncusu ne olursa olsun, bir ardıl değer Q (s ', a') üzerindeki bir işlevi veya Q (s, a) aramasını günceller. Açıkçası öğrenmenin başlangıcında bu tahminler gerçek ödüllerden veya devlet geçişlerinden hiçbir bilgi içermiyor.
Öğrenme amaçlandığı gibi çalışırsa, önyargı birden fazla yinelemede asimptotik olarak azalacaktır. Bununla birlikte, yanlılık, özellikle politika dışı yöntemler (örneğin, Q Learning) ve fonksiyon tahmin edicileri kullanırken önemli sorunlara neden olabilir. Yani kombinasyon denir birleşmede başarısız kadar muhtemeldir ölümcül üçlüsü içinde Sutton & Barto .
Monte Carlo kontrol yöntemleri bu önyargıdan muzdarip değildir, çünkü her güncelleme Q (s, a) 'nın ne olması gerektiğine dair gerçek bir örnek kullanılarak yapılır. Bununla birlikte, Monte Carlo yöntemleri yüksek varyanstan muzdarip olabilir, bu da TD'ye kıyasla aynı öğrenim derecesine ulaşmak için daha fazla örneğe ihtiyaç duyulduğu anlamına gelir.
Uygulamada, ölümcül triad ile ilgili sorunların üstesinden gelilebiliyorsa TD öğrenimi daha verimli öğreniyor gibi görünmektedir . Deneyim tekrarı ve tahmincilerin aşamalı "dondurulmuş" kopyalarını kullanan son sonuçlar, sorunlara yönelik çözüm sağlar - örneğin Atari oyunları için DQN öğrenicisi bu şekilde oluşturulmuştur.
TD ve Monte Carlo arasında da bir orta yol vardır. Tek adımda TD'den Monte Carlo'da bölüm bölümlerinin tamamına kadar farklı uzunluklardaki yörüngeleri birleştiren ve bunları birleştiren genelleştirilmiş bir yöntem oluşturmak mümkündür. Bu en yaygın varyantı TD (olup ), öğrenme bir parametredir için (etkili tek aşamalı TD öğrenme) (etkili Monte Carlo öğrenme, fakat iyi bir özelliği ile sürekli olarak kullanılabileceğini sorunlar). Tipik olarak, ile arasındaki bir değer en etkili öğrenme ajanını yapar - birçok hiperparametre gibi, kullanılacak en iyi değer soruna bağlıdır.λλ0101
Değer temelli bir yöntem kullanıyorsanız (ilke temelli bir yöntem yerine), TD öğrenimi genellikle pratikte daha fazla kullanılır veya TD (λ) gibi bir TD / MC kombinasyon yöntemi daha da iyi olabilir.
MC için "pratik avantaj" açısından? Monte Carlo öğrenimi kavramsal olarak basit, sağlam ve uygulanması kolaydır, ancak genellikle TD'den daha yavaştır. Genellikle bir öğrenme denetleyicisi motoru için kullanmazdım (basit bir ortam için bir şey uygulamak için acele etmedikçe), ancak örneğin birden fazla aracıyı karşılaştırmak için bunu politika değerlendirmesi için ciddiye alırım. test için önemli olan tarafsız ölçüm.