3
Neden her zaman diğer tüm politikalardan daha iyi veya eşit olan en az bir politika vardır?
Takviye Öğrenimi: Giriş. İkinci baskı, devam ediyor ., Richard S. Sutton ve Andrew G. Barto (c) 2012, s. 67-68. Bir takviye öğrenme görevinin çözülmesi, kabaca uzun vadede çok ödül kazanan bir politika bulmak anlamına gelir. Sonlu MDP'ler için, en uygun politikayı tam olarak aşağıdaki şekilde tanımlayabiliriz. Değer işlevleri, ilkeler üzerinden …