Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?


21

Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder.

Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü tahmin etmek (Q-öğrenme), eylemi doğrudan gerçekleştirme olasılığını tahmin etmekle eşdeğerdir (PG). Kayıp geri yayılma şeklindeki fark mı?

Yanıtlar:


20

Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülün tahmin edilmesi (Q-learning), eylemi doğrudan gerçekleştirme olasılığını tahmin etmeye eşdeğerdir (PG).

Her iki yöntem de teorik olarak Markov Karar Süreci yapısı tarafından yönlendirilir ve sonuç olarak benzer gösterim ve kavramları kullanır. Ek olarak, basit çözülebilir ortamlarda her iki yöntemin de aynı veya en azından eşdeğer optimal politikalarla sonuçlanmasını beklemelisiniz.

Bununla birlikte, aslında dahili olarak farklıdırlar. Yaklaşımlar arasındaki en temel fark, hem öğrenirken hem de çıktı olarak (öğrenilen politika) eylem seçimine nasıl yaklaştıklarıdır. Q-learning'te amaç, maksimum değeri bularak, ayrı bir dizi eylemden tek bir deterministik eylemi öğrenmektir. Politika gradyanları ve diğer doğrudan politika aramalarıyla amaç, eyaletten eyleme stokastik olabilen ve sürekli eylem alanlarında çalışan bir harita öğrenmektir.

Sonuç olarak, ilke gradyan yöntemleri değer tabanlı yöntemlerin yapamadığı sorunları çözebilir:

  • Geniş ve sürekli hareket alanı. Bununla birlikte, değer tabanlı yöntemlerle, bu hala takdir yetkisi ile yakınlaştırılabilir - ve bu, kötü bir seçim değildir, çünkü politika gradyanındaki haritalama işlevinin pratikte bir tür yaklaşık olması gerekir.

  • Stokastik politikalar. Değer temelli bir yöntem, optimal politikanın stokastik olduğu ve Makas / Kağıt / Taş gibi belirli olasılıklar gerektiren bir ortamı çözemez. Çünkü Q-öğreniminde eylem olasılıklarını kontrol eden eğitilebilir parametreler bulunmadığından, TD öğrenimindeki problem formülasyonu deterministik bir ajanın optimal olabileceğini varsayar.

Bununla birlikte, Q-learning gibi değer tabanlı yöntemlerin de bazı avantajları vardır:

  • p(bir|s,θ)θ

  • Hız. Önyüklemenin uyguladığı TD öğrenme yöntemleri, ilerlemeyi değerlendirmek için yalnızca ortamdan örnek alması gereken yöntemlerden çok daha hızlıdır.

Bir veya başka bir yaklaşımı kullanmayı önemsemenizin başka nedenleri de vardır:

  • Temsilci ile ilişkili diğer planlama süreçlerine yardımcı olmak için süreç çalışırken tahmini getiriyi bilmek isteyebilirsiniz.

  • Sorunun durum temsili, bir değer işlevine veya ilke işlevine daha kolay borç verir. Bir değer işlevinin devletle çok basit bir ilişkisi olduğu ortaya çıkabilir ve politika işlevi çok karmaşık ve öğrenmesi zor olabilir (ya da tam tersi) .

Bazı son teknoloji ürünü RL çözücüler aslında Aktör-Eleştirmen gibi her iki yaklaşımı birlikte kullanırlar. Bu, değerlerin güçlü yönlerini ve politika gradyan yöntemlerini birleştirir.


Aktör eleştirmeninin her iki yöntemin gücünü birleştirdiğini söylediğinde ne demek istiyorsun? Anladığım kadarıyla, aktör devlete dayanarak atılacak en iyi eylemi değerlendirir ve eleştirmen bu devletin değerini değerlendirir, ardından aktöre ödül verir. Onlara tek bir "Politika" birimi gibi davranmak bana hala politika gradyanı gibi geliyor. Neden bu aslında Q-öğrenme gibi?
Gulzar

1
@Guizar: Eleştirmen, değere dayalı bir yöntem (örneğin Q-öğrenme) kullanarak öğrenir. Dolayısıyla, genel olarak, aktör-eleştirmen bir değer yönteminin ve bir ilke gradyan yönteminin birleşimidir ve birleşmeden yararlanır. "Vanilya" PG üzerinde göze çarpan bir gelişme, degradelerin her bölümün sonunda değil, her adımda değerlendirilebilmesidir. Bu konuda daha ayrıntılı bir cevap arıyorsanız, sitede bir soru sormalısınız.
Neil Slater

@Guizar: Avantaj aktörü eleştirmeni (taban çizgisini eylem değerlerine dayanacak şekilde ayarlar) ve genellikle daha basit bir durum değeri olan eleştirmen arasında kafam karıştığında (örn. Q-öğrenme) çizik. Bununla birlikte, açıklamam hala aynı, eleştirmen genellikle Q öğreniminin de bir örnek olduğu değer tabanlı TD yöntemleri kullanılarak güncelleniyor.
Neil Slater
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.