Aşağıdaki durumları düşünelim:
- Sen ping pong oynamak için bir robot öğretiyorsun
- Karekök hesaplamak için bir program öğretiyorsunuz
- Okuldaki bir çocuğa matematik öğretiyorsun
Bu durumlar (yani denetimli öğrenme) ve birçoğunun ortak bir yanı (diğerleri arasında) vardır: öğrenci performansına göre bir ödül alır.
Benim sorum, ödül fonksiyonu neye benzemeli? "En iyi" cevap var mı, yoksa duruma bağlı mı? Duruma bağlıysa, hangi ödül fonksiyonunun seçileceği nasıl belirlenir?
Örneğin, aşağıdaki üç ödül işlevini ele alalım:
- Fonksiyon
A
diyor ki:- belirli bir noktanın altında, kötü ya da kötü aynıdır: hiçbir şey elde edemezsiniz
- neredeyse iyi ve mükemmel arasında açık bir fark var
- Fonksiyon
B
diyor ki:- performansınızla orantılı olarak ödüllendirilirsiniz
- Fonksiyon
C
diyor ki:- performansınız kötüyse, sorun değil, elinizden gelenin en iyisini yaptınız: hala bir ödül kazanıyorsunuz
- mükemmel ve neredeyse iyi arasında çok fazla fark yok
Sezgisel olarak, A
robotun çok odaklanacağını ve kesin modeli öğreneceğini düşünüyorum , ancak benzer kalıplarla uğraşırken aptallaşırken, C
mükemmellik kaybının pahasına değişime daha uyumlu hale gelirdi.
Birisi daha karmaşık işlevleri de düşünebilir, sadece göstermek için ama çok az:
Peki, hangi işlevi seçeceğini nasıl bilebilir? Temel itibaren (en azından) ortaya çıkacak olan davranışı bilinmektedir A
, B
ve C
fonksiyonlar?
Yan soru, bu robotlar ve insan çocukları için temelde farklı mıdır?
A
, robot tam görevde son derece iyi olabilir, ancak benzer ama biraz farklı görevlerde korkunç olabilir. Bu sadece benim tahminim.
X
bana en iyi sonucu verdi " diyen bir cevap, mükemmel bir şekilde doğru olmasa bile, büyük bir kural getirecektir.