Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülün tahmin edilmesi (Q-learning), eylemi doğrudan gerçekleştirme olasılığını tahmin etmeye eşdeğerdir (PG).
Her iki yöntem de teorik olarak Markov Karar Süreci yapısı tarafından yönlendirilir ve sonuç olarak benzer gösterim ve kavramları kullanır. Ek olarak, basit çözülebilir ortamlarda her iki yöntemin de aynı veya en azından eşdeğer optimal politikalarla sonuçlanmasını beklemelisiniz.
Bununla birlikte, aslında dahili olarak farklıdırlar. Yaklaşımlar arasındaki en temel fark, hem öğrenirken hem de çıktı olarak (öğrenilen politika) eylem seçimine nasıl yaklaştıklarıdır. Q-learning'te amaç, maksimum değeri bularak, ayrı bir dizi eylemden tek bir deterministik eylemi öğrenmektir. Politika gradyanları ve diğer doğrudan politika aramalarıyla amaç, eyaletten eyleme stokastik olabilen ve sürekli eylem alanlarında çalışan bir harita öğrenmektir.
Sonuç olarak, ilke gradyan yöntemleri değer tabanlı yöntemlerin yapamadığı sorunları çözebilir:
Geniş ve sürekli hareket alanı. Bununla birlikte, değer tabanlı yöntemlerle, bu hala takdir yetkisi ile yakınlaştırılabilir - ve bu, kötü bir seçim değildir, çünkü politika gradyanındaki haritalama işlevinin pratikte bir tür yaklaşık olması gerekir.
Stokastik politikalar. Değer temelli bir yöntem, optimal politikanın stokastik olduğu ve Makas / Kağıt / Taş gibi belirli olasılıklar gerektiren bir ortamı çözemez. Çünkü Q-öğreniminde eylem olasılıklarını kontrol eden eğitilebilir parametreler bulunmadığından, TD öğrenimindeki problem formülasyonu deterministik bir ajanın optimal olabileceğini varsayar.
Bununla birlikte, Q-learning gibi değer tabanlı yöntemlerin de bazı avantajları vardır:
p ( a ∣ s , θ )θ
Hız. Önyüklemenin uyguladığı TD öğrenme yöntemleri, ilerlemeyi değerlendirmek için yalnızca ortamdan örnek alması gereken yöntemlerden çok daha hızlıdır.
Bir veya başka bir yaklaşımı kullanmayı önemsemenizin başka nedenleri de vardır:
Temsilci ile ilişkili diğer planlama süreçlerine yardımcı olmak için süreç çalışırken tahmini getiriyi bilmek isteyebilirsiniz.
Sorunun durum temsili, bir değer işlevine veya ilke işlevine daha kolay borç verir. Bir değer işlevinin devletle çok basit bir ilişkisi olduğu ortaya çıkabilir ve politika işlevi çok karmaşık ve öğrenmesi zor olabilir (ya da tam tersi) .
Bazı son teknoloji ürünü RL çözücüler aslında Aktör-Eleştirmen gibi her iki yaklaşımı birlikte kullanırlar. Bu, değerlerin güçlü yönlerini ve politika gradyan yöntemlerini birleştirir.