SARSA vs. Q Learning ne zaman seçilmeli


19

SARSA ve Q Learning benzer şekilde çalışan pekiştirici öğrenme algoritmalarıdır. En çarpıcı fark, Q Learning politika dışındayken SARSA'nın politikada olmasıdır. Güncelleme kuralları aşağıdaki gibidir:

Q Öğrenme:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

SARSA:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

burada st,at ve rt durum, eylem ve t adımında ödül ve γ bir indirim faktörüdür.

SARSA'da gerçek eylemi gerçekleştirmemiz ve Q Learning'de eylemi en yüksek ödülle gerçekleştirmemiz dışında çoğunlukla aynı görünüyorlar.

Birinin diğerini tercih etmesi gereken teorik veya pratik ortamlar var mı? Q Learning'de maksimum değeri almanın sürekli eylem alanlarında maliyetli ve hatta daha yüksek olabileceğini görebiliyorum. Ama başka bir şey var mı?


Sürekli eylem alanlarında, özellikle belirlediğiniz gibi - sürekli eylem alanı için ayrık bir değer işlevinin bakımının yapılması ve değerlendirilmesi, özellikle eylem alanının birçok boyutu olduğunda pratik olmadığından, çeşitli ilke-gradyan yöntemleri gibi doğrudan ilke arama yöntemleri yaygın olarak kullanılır. ( boyutsallığın laneti nedeniyle ).
HelloGoodbye

Yanıtlar:


27

SARSA'da gerçek eylemi gerçekleştirmemiz ve Q Learning'de eylemi en yüksek ödülle gerçekleştirmemiz dışında çoğunlukla aynı görünüyorlar.

Aslında her ikisinde de gerçek tek oluşturulan eylemi sonraki adımda "alırsınız" . Q öğreniminde, gerçekleştirdiğiniz işlemden bağımsız olarak tahmini olası sonraki işlemlerin maksimum tahmininden güncellersiniz. SARSA'da iken, tahminleri temel alarak günceller ve aynı işlemi yaparsınız.at+1

Muhtemelen sorudaki "al" ile kastettiğiniz şeydir, ancak literatürde, bir eylemde bulunmak, örneğin değeri haline gelir ve , .atrt+1st+1

Birinin diğerini tercih etmesi gereken teorik veya pratik ortamlar var mı?

Q-learning, SARSA'ya göre aşağıdaki avantaj ve dezavantajlara sahiptir:

  • Q-learning doğrudan en uygun politikayı, SARSA ise en uygun politikaları öğrenirken doğrudan öğrenir. Eğer Sarsa kullanarak optimal politikasını öğrenmek istiyorsanız, o zaman bir strateji belirlemek gerekir çürümesi için içinde ayarlamak için bir keman hyperparameter hale gelebilir -greedy aksiyon seçim.ϵϵ

  • Q-öğrenme (ve genel olarak politika dışı öğrenme) örnek başına varyansın SARSA'dan daha yüksek olduğunu ve sonuç olarak yakınsama problemlerinden muzdarip olabilir. Bu, sinir ağlarını Q-öğrenme yoluyla eğitirken bir sorun olarak ortaya çıkıyor.

  • SARSA, keşif hareketlerinden olası cezalara izin verecek şekilde yakınsamaya yaklaşırken , Q-öğrenme bunları görmezden gelecek. Bu, SARSA'yı daha muhafazakar hale getirir - eğer optimal yola yakın büyük bir negatif ödül riski varsa, Q-learning, keşfederken bu ödülü tetikleme eğiliminde olurken, SARSA tehlikeli bir optimal yoldan kaçınmaya ve sadece yavaşça kullanmayı öğrenir. arama parametreleri azaltıldığında. Bu etkiyi gösteren klasik oyuncak problemine uçurum yürüyüşü denir .

Uygulamada, hatalar maliyetli ise son nokta büyük bir fark yaratabilir - örneğin bir robotu simülasyonda değil, gerçek dünyada eğitiyorsunuz. Robot hasar görürse tehlikede gerçek zamanlı ve para varsa, yüksek riskten kaçınan daha muhafazakar bir öğrenme algoritmasını tercih edebilirsiniz.

Amacınız simülasyonda veya düşük maliyetli ve hızlı yinelenen bir ortamda en uygun ajanı yetiştirmekse, ilk noktaya (doğrudan optimal politikayı öğrenmek) göre Q-öğrenme iyi bir seçimdir. Ajan öğrenir çevrimiçi ve kazandığınız ödüller önem veriyorsanız öğrenme iken , daha sonra SARSA daha iyi bir seçim olabilir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.