Burada iyi bir anket var .
Q-öğrenme yöntemlerine ek hızlı bir özet olarak, aynı zamanda yerine Q fonksiyonunu öğrenme, doğrudan en iyi politika öğrenmek politika tabanlı yöntemler bir sınıf vardır kullanımına.π
Bu yöntemler, bir politika gradyan algoritması olan popüler REINFORCE algoritmasını içerir. TRPO ve GAE, benzer politika gradyan algoritmalarıdır.
Politika gradyanları üzerinde birçok başka varyant vardır ve aktör-eleştirmen çerçevesinde Q-öğrenme ile birleştirilebilir. A3C algoritması - asenkron avantaj aktör eleştirmeni - böyle bir aktör eleştirmen algoritması ve takviye öğrenmede çok güçlü bir temeldir.
Optimal bir kontrol algoritmasından elde edilen çıktıları taklit ederek en iyi politika de arayabilirsiniz ve buna rehberli politika arama denir.π
Her ikisi de modelsiz ortamlarda uygulanan Q-öğrenme ve politika gradyanlarına ek olarak (her iki algoritma da dünyanın bir modelini korumaz), dünyanın durumunu tahmin eden modele dayalı yöntemler de vardır. Bu modeller değerlidir çünkü çok daha verimli örnek olabilirler.
Model tabanlı algoritmalar politika gradyanları veya Q-öğrenme ile özel değildir. Ortak bir yaklaşım, devlet tahmini yapmak / bir dinamikler modeli öğrenmek ve daha sonra tahmini durumun üstünde bir politika geliştirmektir.
Bir sınıflandırmaya gelince, bir arıza
- Q veya V işlevi öğrenme
- Politika tabanlı yöntemler
- Model tabanlı
Politika tabanlı yöntemler ayrıca alt bölümlere ayrılabilir
- Politika gradyanları
- Aktör Eleştirmeni
- Politika araması