Takviye Öğrenme Algoritmalarına Genel Bakış


9

Şu anda Takviye Öğrenme Algoritmalarına Genel Bakış ve belki de bunların bir sınıflandırmasını arıyorum. Ancak Sarsa ve Q-Learning + Deep Q-Learning'in yanında gerçekten popüler bir algoritma bulamıyorum.

Vikipedi bana farklı genel Takviye Öğrenme Yöntemleri hakkında genel bir bakış sunuyor, ancak bu yöntemleri uygulayan farklı algoritmalara referans yok.

Ama belki genel yaklaşımları ve algoritmaları karıştırıyorum ve temelde bu alanda, makine öğreniminin diğer alanlarında olduğu gibi gerçek bir sınıflandırma yok. Birisi bana kısa bir giriş yapabilir ya da sadece farklı yaklaşımları, aralarındaki farkları ve bu yaklaşımları uygulayan örnek algoritmaları okumaya başlayabileceğim bir referans verebilir mi?


Yanıtlar:


14

Burada iyi bir anket var .

Q-öğrenme yöntemlerine ek hızlı bir özet olarak, aynı zamanda yerine Q fonksiyonunu öğrenme, doğrudan en iyi politika öğrenmek politika tabanlı yöntemler bir sınıf vardır kullanımına.π

Bu yöntemler, bir politika gradyan algoritması olan popüler REINFORCE algoritmasını içerir. TRPO ve GAE, benzer politika gradyan algoritmalarıdır.

Politika gradyanları üzerinde birçok başka varyant vardır ve aktör-eleştirmen çerçevesinde Q-öğrenme ile birleştirilebilir. A3C algoritması - asenkron avantaj aktör eleştirmeni - böyle bir aktör eleştirmen algoritması ve takviye öğrenmede çok güçlü bir temeldir.

Optimal bir kontrol algoritmasından elde edilen çıktıları taklit ederek en iyi politika de arayabilirsiniz ve buna rehberli politika arama denir.π

Her ikisi de modelsiz ortamlarda uygulanan Q-öğrenme ve politika gradyanlarına ek olarak (her iki algoritma da dünyanın bir modelini korumaz), dünyanın durumunu tahmin eden modele dayalı yöntemler de vardır. Bu modeller değerlidir çünkü çok daha verimli örnek olabilirler.

Model tabanlı algoritmalar politika gradyanları veya Q-öğrenme ile özel değildir. Ortak bir yaklaşım, devlet tahmini yapmak / bir dinamikler modeli öğrenmek ve daha sonra tahmini durumun üstünde bir politika geliştirmektir.

Bir sınıflandırmaya gelince, bir arıza

  • Q veya V işlevi öğrenme
  • Politika tabanlı yöntemler
  • Model tabanlı

Politika tabanlı yöntemler ayrıca alt bölümlere ayrılabilir

  • Politika gradyanları
  • Aktör Eleştirmeni
  • Politika araması
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.