SARSA ve Q Learning benzer şekilde çalışan pekiştirici öğrenme algoritmalarıdır. En çarpıcı fark, Q Learning politika dışındayken SARSA'nın politikada olmasıdır. Güncelleme kuralları aşağıdaki gibidir:
Q Öğrenme:
SARSA:
burada ve durum, eylem ve adımında ödül ve bir indirim faktörüdür.
SARSA'da gerçek eylemi gerçekleştirmemiz ve Q Learning'de eylemi en yüksek ödülle gerçekleştirmemiz dışında çoğunlukla aynı görünüyorlar.
Birinin diğerini tercih etmesi gereken teorik veya pratik ortamlar var mı? Q Learning'de maksimum değeri almanın sürekli eylem alanlarında maliyetli ve hatta daha yüksek olabileceğini görebiliyorum. Ama başka bir şey var mı?