Oyun teorisi ve pekiştirici öğrenme arasındaki ilişki nedir?


12

(Derin) Takviye Öğrenimi (RL) ile ilgileniyorum . Bu alana dalmadan önce Oyun Teorisi (GT) dersini almalıyım ?

GT ve RL nasıl ilişkilidir?


2
Çekiçler ve çırpılmış krema kadar yakın ilişkilidir. Muhtemelen her ikisini de kullanabileceğiniz bir sorun bulabilirsiniz, ancak bu yaygın değildir.
Don Reba

4
@DonReba Takviye Öğreniminde tanınmış iki araştırmacıya göre değil: udacity.com/course/… Bence Oyun Teorisi size en uygun politikanın ne olduğunu söylerken, RL ajanların optimum veya iyi bir politikayı nasıl öğrenebileceğini anlatıyor .
Kiuhnm

3
@DonReba, belki de onlara öğretilen olağan içerik açısından. Ancak, iki alanın amaçları çok farklı değildir. Takviye öğrenimi, genellikle bir oyuncu için kusurlu bir bilgi oyunu olarak görülebilir. Ya da diğer oyuncunun, doğanın, keşfetmek istediğiniz bir dizi kuralı izlediği iki kişilik bir oyun olarak.
varsayımlar

1
Bu eğiticiydi. :)
Don Reba

Yanıtlar:


12

Takviye Öğreniminde (RL) altta yatan bir Markov Karar Süreci (MDP) hayal etmek yaygındır. Daha sonra, RL'nin amacı MDP için genellikle sadece kısmen belirtilen iyi bir politika öğrenmektir. MDP'ler, indirimli ödülün RL için en yaygın varsayım olduğu toplam, ortalama veya indirimli ödül gibi farklı hedeflere sahip olabilir. MDP'lerin iki oyunculu (yani oyun) ayarlarına iyi çalışılmış uzantıları vardır; bkz.

Filar, Jerzy ve Koos Vrieze. Rekabetçi Markov karar süreçleri . Springer Science & Business Media, 2012.

MDP'ler ve bunların iki oyunculu (sıfır toplamlı) oyunlara genişletilmesi, örneğin Banach sabit nokta teoremi, Değer İterasyonu, Bellman Optimality, Politika İterasyonu / Strateji Geliştirme vb. MDP'ler (ve dolayısıyla RL) arasındaki bu yakın bağlantılar ve bu özel oyun türleri:

  • ön koşul olarak GT olmadan doğrudan RL (ve MDP'ler) hakkında bilgi edinebilirsiniz;
  • Her neyse, GT kurslarının çoğunda (normalde stratejik form, geniş form ve tekrarlanan oyunlara odaklanacak, ancak MDP'leri genelleştiren devlet tabanlı sonsuz oyunlara odaklanmayacak) bu şeyleri öğrenemezsiniz.


0

RL: Bir Markov karar problemini (MDPS) çözmek için tek bir ajan eğitildi. GT: Oyunları çözmek için iki ajan eğitildi. Stokastik oyunları çözmek için çok ajanlı bir Güçlendirme öğrenimi (MARL) kullanılabilir.

Derin öğrenmede RL'nin tek ajan uygulamasıyla ilgileniyorsanız, herhangi bir GT kursuna gitmenize gerek yoktur. İki veya daha fazla ajan için oyun teorik tekniklerini bilmeniz gerekebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.