(Derin) Takviye Öğrenimi (RL) ile ilgileniyorum . Bu alana dalmadan önce Oyun Teorisi (GT) dersini almalıyım ?
GT ve RL nasıl ilişkilidir?
(Derin) Takviye Öğrenimi (RL) ile ilgileniyorum . Bu alana dalmadan önce Oyun Teorisi (GT) dersini almalıyım ?
GT ve RL nasıl ilişkilidir?
Yanıtlar:
Takviye Öğreniminde (RL) altta yatan bir Markov Karar Süreci (MDP) hayal etmek yaygındır. Daha sonra, RL'nin amacı MDP için genellikle sadece kısmen belirtilen iyi bir politika öğrenmektir. MDP'ler, indirimli ödülün RL için en yaygın varsayım olduğu toplam, ortalama veya indirimli ödül gibi farklı hedeflere sahip olabilir. MDP'lerin iki oyunculu (yani oyun) ayarlarına iyi çalışılmış uzantıları vardır; bkz.
Filar, Jerzy ve Koos Vrieze. Rekabetçi Markov karar süreçleri . Springer Science & Business Media, 2012.
MDP'ler ve bunların iki oyunculu (sıfır toplamlı) oyunlara genişletilmesi, örneğin Banach sabit nokta teoremi, Değer İterasyonu, Bellman Optimality, Politika İterasyonu / Strateji Geliştirme vb. MDP'ler (ve dolayısıyla RL) arasındaki bu yakın bağlantılar ve bu özel oyun türleri:
Oyun teorisi Çok Temsilci Takviye öğrenme (MARL) bağlamında oldukça yer almaktadır.
Stokastik oyunlara bir göz atın veya Multiagent Takviye Öğrenmesi için Stokastik Oyun Teorisinin Analizi makalesini okuyun .
GT'yi RL için ön koşul olarak görmezdim. Ancak, çok aracılı durum için güzel bir uzantı sağlar.
RL: Bir Markov karar problemini (MDPS) çözmek için tek bir ajan eğitildi. GT: Oyunları çözmek için iki ajan eğitildi. Stokastik oyunları çözmek için çok ajanlı bir Güçlendirme öğrenimi (MARL) kullanılabilir.
Derin öğrenmede RL'nin tek ajan uygulamasıyla ilgileniyorsanız, herhangi bir GT kursuna gitmenize gerek yoktur. İki veya daha fazla ajan için oyun teorik tekniklerini bilmeniz gerekebilir.