Ödül işlevleri, ajanın nasıl davranması gerektiğini "açıklar. Başka bir deyişle, ne öngören, "normatif" içeriğe sahip sen ajan başarmak istiyorum. Örneğin, bazı ödüllendirici devlet s gıda tadı temsil edebilir. Veya belki, (s,a) yiyecekleri tatma eylemini temsil edebilir. Yani, ödül fonksiyonu acentenin motivasyonlarının ne olduğunu belirlediği ölçüde, evet, telafi etmek zorundasınız!
Mutlak kısıtlamalar yoktur, ancak ödül fonksiyonunuz "daha iyi davranırsa", ajan daha iyi öğrenir. Pratik olarak, bu yakınsama hızı anlamına gelir ve yerel minimada sıkışmamak. Ancak daha fazla spesifikasyon, kullandığınız takviye öğrenme türlerine büyük ölçüde bağlı olacaktır. Örneğin, durum / eylem alanı sürekli mi yoksa ayrık mı? Dünya mı yoksa eylem seçimi stokastik mi? Ödül sürekli hasat mı, yoksa yalnızca sonunda mı?
R(s1)=1
R(s2..n)=0
R(si)=1/i2R(s,a)R(s,a,s′)R
Sürekli durum alanı söz konusu olduğunda, bir temsilcinin kolayca öğrenmesini istiyorsanız, ödül işlevi sürekli ve farklılaştırılabilir olmalıdır . Bu nedenle polinomlar birçok algoritma için iyi çalışabilir. Ayrıca, lokalize minimi çıkarmaya çalışın. Bir dizi vardır örnekler nasıl DEĞİL gibi - bir ödül işlevini yapmaya Rastrigin fonksiyonu . Bunu söyledikten sonra, birçok RL algoritması (örn. Boltzmann makineleri ) bunlara karşı biraz sağlamdır.
Gerçek dünyadaki bir sorunu çözmek için RL kullanıyorsanız, muhtemelen ödül fonksiyonunu bulmak sorunun en zor kısmı olmasına rağmen , durum alanını nasıl belirlediğinizle yakından bağlantılı olduğunu göreceksiniz . Örneğin, zamana bağlı bir problemde, hedefe olan mesafe genellikle zayıf bir ödül işlevi yapar (örneğin dağ arabası probleminde ). Bu gibi durumlar daha yüksek boyutlu durum uzayları (gizli durumlar veya bellek izleri) veya hiyerarşik RL kullanılarak çözülebilir.
Soyut bir düzeyde, denetimsiz öğrenmenin şart koşan "doğru ve yanlış" performansı ortadan kaldırması gerekiyordu. Fakat şimdi görebiliyoruz ki, RL sorumluluğu sadece öğretmen / eleştirmenden ödül fonksiyonuna kaydırıyor. Sorunu çözmenin daha az dairesel bir yolu var: yani en iyi ödül işlevini çıkarmak . Bir yönteme ters RL veya "çıraklık öğrenimi" denir ve bu gözlemlenen davranışları yeniden üretecek bir ödül işlevi oluşturur. Bir dizi gözlemi yeniden üretmek için en iyi ödül işlevini bulmak, MLE, Bayesian veya bilgi teorisi yöntemleri ile de uygulanabilir - eğer "ters takviye öğrenimi" için google.