Aşağıdaki durumları düşünelim:
- Sen ping pong oynamak için bir robot öğretiyorsun
- Karekök hesaplamak için bir program öğretiyorsunuz
- Okuldaki bir çocuğa matematik öğretiyorsun
Bu durumlar (yani denetimli öğrenme) ve birçoğunun ortak bir yanı (diğerleri arasında) vardır: öğrenci performansına göre bir ödül alır.
Benim sorum, ödül fonksiyonu neye benzemeli? "En iyi" cevap var mı, yoksa duruma bağlı mı? Duruma bağlıysa, hangi ödül fonksiyonunun seçileceği nasıl belirlenir?
Örneğin, aşağıdaki üç ödül işlevini ele alalım:

- Fonksiyon
Adiyor ki:- belirli bir noktanın altında, kötü ya da kötü aynıdır: hiçbir şey elde edemezsiniz
- neredeyse iyi ve mükemmel arasında açık bir fark var
- Fonksiyon
Bdiyor ki:- performansınızla orantılı olarak ödüllendirilirsiniz
- Fonksiyon
Cdiyor ki:- performansınız kötüyse, sorun değil, elinizden gelenin en iyisini yaptınız: hala bir ödül kazanıyorsunuz
- mükemmel ve neredeyse iyi arasında çok fazla fark yok
Sezgisel olarak, Arobotun çok odaklanacağını ve kesin modeli öğreneceğini düşünüyorum , ancak benzer kalıplarla uğraşırken aptallaşırken, Cmükemmellik kaybının pahasına değişime daha uyumlu hale gelirdi.
Birisi daha karmaşık işlevleri de düşünebilir, sadece göstermek için ama çok az:

Peki, hangi işlevi seçeceğini nasıl bilebilir? Temel itibaren (en azından) ortaya çıkacak olan davranışı bilinmektedir A, Bve Cfonksiyonlar?
Yan soru, bu robotlar ve insan çocukları için temelde farklı mıdır?
A, robot tam görevde son derece iyi olabilir, ancak benzer ama biraz farklı görevlerde korkunç olabilir. Bu sadece benim tahminim.
Xbana en iyi sonucu verdi " diyen bir cevap, mükemmel bir şekilde doğru olmasa bile, büyük bir kural getirecektir.
