Takviye öğrenme algoritmaları kullanarak robotu takip eden bir çizgi programlamayı düşünüyorum. Üzerinde düşündüğüm soru, herhangi bir keyfi yolda gezinmeyi öğrenmek için algoritmayı nasıl alabilirim?
Takviye öğrenimi için Sutton & Barto Kitabını takip ettikten sonra, araba acentesinde pistten çıkmamayı ve hızını düzenlememeyi öğrendiği bir yarış pisti içeren bir egzersiz problemini çözdüm. Bununla birlikte, bu egzersiz problemi, ajanın eğitildiği pistte nasıl gezinileceğini öğrenmesini sağladı.
Bir robotun keyfi yollarda gezinmesini sağlamak takviye öğrenme kapsamında mıdır? Temsilcinin kesinlikle yarış devresi veya yol haritası olması gerekiyor mu? Durum alanım için hangi parametreleri kullanabilirim?