Yanıtlar:
Herhangi bir denetimli öğrenme sorununun eşdeğer bir takviye öğrenme problemi olarak kullanılabileceği doğrudur: Durumların giriş verilerine karşılık gelmesine izin verin. Eylemlerin çıktı tahminlerine karşılık gelmesine izin verin. Ödülü, denetimli öğrenme için kullanılan kayıp fonksiyonunun negatifi olarak tanımlayın. Beklenen ödülü en üst düzeye çıkarın. Buna karşılık, pekiştirici öğrenme problemleri genellikle denetimli öğrenme problemleri olarak kullanılamaz. Dolayısıyla, bu perspektiften, denetimli öğrenme problemleri pekiştirici öğrenme problemlerinin bir alt kümesidir.
Ancak, genel bir takviye öğrenme algoritması kullanarak denetimli bir öğrenme problemini çözmeye çalışmak oldukça anlamsız olacaktır; tüm bunları yapmak, sorunun daha kolay çözülmesini sağlayacak yapıyı atmaktır. Takviyeli öğrenmede, denetimli öğrenimle ilgili olmayan çeşitli konular ortaya çıkar. Denetimli öğrenme, genel pekiştirici öğrenme ortamında geçerli olmayan yaklaşımlardan yararlanabilir. Bu nedenle, alanlar arasında ortak bazı temel ilkeler ve paylaşılan teknikler olmasına rağmen, tipik olarak denetimli öğrenmenin bir tür takviye öğrenimi olarak tartışıldığı görülmez.
Referanslar
Barto ve Dietterich (2004) . Takviye öğrenimi ve denetimli öğrenimle ilişkisi.