Hangi ödül fonksiyonu en iyi öğrenmeyi sağlar?

13

Aşağıdaki durumları düşünelim:

Sen ping pong oynamak için bir robot öğretiyorsun
Karekök hesaplamak için bir program öğretiyorsunuz
Okuldaki bir çocuğa matematik öğretiyorsun

Bu durumlar (yani denetimli öğrenme) ve birçoğunun ortak bir yanı (diğerleri arasında) vardır: öğrenci performansına göre bir ödül alır.

Benim sorum, ödül fonksiyonu neye benzemeli? "En iyi" cevap var mı, yoksa duruma bağlı mı? Duruma bağlıysa, hangi ödül fonksiyonunun seçileceği nasıl belirlenir?

Örneğin, aşağıdaki üç ödül işlevini ele alalım:

resim açıklamasını buraya girin

Fonksiyon Adiyor ki:
- belirli bir noktanın altında, kötü ya da kötü aynıdır: hiçbir şey elde edemezsiniz
- neredeyse iyi ve mükemmel arasında açık bir fark var
Fonksiyon Bdiyor ki:
- performansınızla orantılı olarak ödüllendirilirsiniz
Fonksiyon Cdiyor ki:
- performansınız kötüyse, sorun değil, elinizden gelenin en iyisini yaptınız: hala bir ödül kazanıyorsunuz
- mükemmel ve neredeyse iyi arasında çok fazla fark yok

Sezgisel olarak, Arobotun çok odaklanacağını ve kesin modeli öğreneceğini düşünüyorum , ancak benzer kalıplarla uğraşırken aptallaşırken, Cmükemmellik kaybının pahasına değişime daha uyumlu hale gelirdi.

Birisi daha karmaşık işlevleri de düşünebilir, sadece göstermek için ama çok az:

resim açıklamasını buraya girin

Peki, hangi işlevi seçeceğini nasıl bilebilir? Temel itibaren (en azından) ortaya çıkacak olan davranışı bilinmektedir A, Bve Cfonksiyonlar?

Yan soru, bu robotlar ve insan çocukları için temelde farklı mıdır?

machine-learning

— Şahbaz
kaynak

Bir robotun sibernetik olmadıkça aynı veya benzer şeyi tekrar tekrar yaparak aptallaşacağından şüpheliyim.

— ott--

@ott, demek istediğim bu değil. Demek istediğim, benzer bir ödül fonksiyonu ile oldu A, robot tam görevde son derece iyi olabilir, ancak benzer ama biraz farklı görevlerde korkunç olabilir. Bu sadece benim tahminim.

— Shahbaz

Ah, tamam, anlıyorum. Tenis düşünüyorsunuz örneğin

— ott--

Belki de bunun arkasındaki teori karmaşık olabilir, ancak "Pek çok robot için farklı görevler düşündüm ve çoğu zaman işlev Xbana en iyi sonucu verdi " diyen bir cevap, mükemmel bir şekilde doğru olmasa bile, büyük bir kural getirecektir.

— Shahbaz

5

Kısa cevap: En güçlü takviye etkisi, aralıklı (rastgele) bir programda değerli bir ödül vermekten gelir.

Daha uzun versiyon: Sorunuzun bir yönü , en azından karmaşık bir organizmaya matematik öğretimi için geçerli olduğu gibi edimsel koşullama ile ilgilidir . Bunu makine öğrenimine uygulamak pekiştirici öğrenme olarak bilinir .

Ekonomi ( jwpat7'nin cevabına göre ) takviye hikayesinin sadece bir kısmına değinir . Fayda işlevi, belirli bir bağlamda hangi ödülün en güçlü takviye etkisine (davranış üzerinde en büyük etki) sahip olduğunu söyler. Övgü mü? çikolata? kokain? beynin belirli bölgelerine doğrudan elektriksel stimülasyon? Çoğunlukla cevabım, verilen bir ödül hizmetini varsayarak bağlamın etkisiyle ilgilidir.

Karmaşık organizmalar / davranışlar için, ödül planlaması en az ödül programı kadar önemlidir:

"Sabit aralıklı ödül programı", belirli bir miktar ödülle davranışı değiştirmenin en az etkili yoludur ( yatak odanızı düzenli tutarsanız size haftada 10 $ vereceğim ). Dole bludger düşünün.
Sabit oranlı ödül programları ( düzenli bir yatak odanız varsa her yedi günde bir 10 $ vereceğim ) sabit aralıklardan daha etkilidir, ancak bir çeşit etkinlik tavanı vardır (konu, $ $ için aç olduklarında odalarını yedi kez toplar 10, ancak başka şekilde değil). Paralı asker düşünün.
"Değişken aralıklı takviye programı" ile verilen bir ödülü vermenin en etkili yolu (örneğin, yatak odanızı düzenli tuttuğunuz her gün 10 $ kazanma şansınız 1 / 7'dir). Poker makinesini düşünün.

Sabit bir ödül bütçesine sahip bir öğrenme süpervizörüyseniz, belirli bir öğrenme durumu için, ödül büyüklüğü (fayda) ve sıklığı arasında optimum bir denge olacaktır. Muhtemelen çok yüksek bir frekansta çok küçük bir ödül dilimi ya da çok nadiren verilen çok büyük bir ödül yığını değildir. Rastgele bir programda rastgele bir ödül bile olabilir - optimum, belirli bir durum için genellikle deneysel olarak belirlenir.

Son olarak, "optimum" program (rastgele sıklık, rastgele miktar {p (ödül), p (değer)}) muhtemelen öğrenme sürecinin farklı aşamalarında değişecektir. Örneğin, yeni bir öğrenci, tekrarlarsanız hızlı bir şekilde sabit aralıklı ödül haline gelen "öncelik" etkisine (hoş geldiniz! Bir jöle fasulyesi var) tabi olabilir. Son denemede verilen bir ödülden daha fazla takviye değeri alan bir "yenilik" etkisi olabilir ("yüksek notada sonlandırma"). Arada, bir öğrenci daha deneyimli hale geldikçe, optimumun zaman içinde daha yüksek olasılığa, daha yüksek faydaya doğru kayabileceği birikimli bir "inanç etkisi" olabilir. Durumunuzda ampirik olarak belirleyecek daha çok şey.

— Chris Gough
kaynak

Çok ilginç bir cevap. Çok mantıklı.

— Shahbaz

Bu cevabı tekrar okuyorum ve yine bu cevabın ne kadar harika olduğunu söylemek istiyorum! Aslında, sana biraz ödül vereyim!

— Shahbaz

6

"Optimal öğrenme" çok belirsiz bir terimdir ve tamamen üzerinde çalıştığınız soruna bağlıdır. Aradığınız terim " aşırı sığdırmak ": resim açıklamasını buraya girin

(Yeşil çizgi, eğitim verilerindeki sonucu tahmin etmede hata, mor çizgi modelin kalitesini ve kırmızı çizgi ise öğrenilen modelin "üretimde" kullanılmakta olan hatadır)

Başka bir deyişle: öğrenilen davranışınızı benzer problemlere uyarlama söz konusu olduğunda, sisteminizi nasıl ödüllendirdiğiniz, onu kaç kez ödüllendirdiğinizden daha az önemlidir - eğitim verilerindeki hataları azaltmak istiyorsunuz, ancak eğitimde tutmuyorsunuz. benzer modellerde çalışma yeteneğini kaybeder.

Bu sorunu ele almanın bir yolu egzersiz verilerinizi yarıya indirmektir: öğrenmek için bir yarısını ve eğitimi doğrulamak için diğer yarısını kullanın. Aşırı sığmaya başladığınızda tanımlamanıza yardımcı olur.

Doğrusal olmayan ödül fonksiyonları

Çoğu denetimli öğrenme algoritması, ödül işlevinin uygulanmasının dışbükey bir çıktı üretmesini bekler. Başka bir deyişle, bu eğride yerel minimana sahip olmak sisteminizin uygun davranışa dönüşmesini engelleyecektir. Bu video, maliyet / ödül fonksiyonlarının arkasındaki matematiği biraz gösteriyor .

— Ian
kaynak

3

Bu meseleler, bir dereceye kadar, ekonomideki fayda fonksiyonlarının incelenmesi ile ele alınmaktadır . Fayda işlevi, bir şeyin etkili veya algılanan değerlerini bir diğeri açısından ifade eder. (Soruda gösterilen eğriler ödül fonksiyonları olmakla birlikte, çeşitli performans seviyeleri için ne kadar ödül verileceğini ifade etse de, benzer görünümlü fayda işlevleri, çeşitli ödül seviyelerinden ne kadar performans elde edildiğini ifade edebilir.)

En iyi hangi ödül işlevinin işe yarayacağı, ödeyen ile icracı arasındaki dengeye bağlıdır. Vikipedi sözleşme eğrisi makalesi Edgeworth kutuları ile Pareto'nun verimli tahsislerinin nasıl bulunacağını göstermektedir . Von Neumann-Morgenstern fayda teoremi bir madde VNM rasyonel ve bir yardımcı fonksiyona sahip olarak karakterize edilebilir sağlamak koşulları belirlemektedir. Vikipedi'deki Hiperbolik mutlak riskten kaçınma makalesinin “HARA faydasından kaynaklanan davranışsal tahminler” bölümü , bazı fayda fonksiyonlarının davranışsal sonuçlarını açıklamaktadır.

Özet: Bu konular ekonomi ve mikroekonomi alanında muazzam miktarlarda araştırmanın konusu olmuştur. Ne yazık ki, sorunuzu cevaplayan kısa ve kullanışlı bir özet çıkarmak, çok fazla iş veya benden çok daha uzman birisinin dikkatini gerektirebilir.

— James Waldby - jwpat7 Instagram Hesabındaki Takipçileri
kaynak

Bu oldukça karmaşık, anladığımdan emin değilim. Ancak ekonominin fayda fonksiyonunun robot için de geçerli olduğundan emin misiniz? Bir robotun denetimli öğrenmesinde, ödeyen gerçekte hiçbir şey kaybetmez. Ödül genellikle robota görevi ne kadar iyi yaptığını söyleyen bir sayı olurdu.

— Shahbaz

1

Optimal ödül fonksiyonu öğrenme hedefine, yani ne öğrenileceğine bağlıdır. Basit problemler için, optimum ödül fonksiyonu için kapalı bir form temsili bulmak mümkün olabilir. Aslında gerçekten basit problemler için, bunun için resmi bir yöntem bilmemem mümkün olduğundan eminim (fayda teorisinin bu soruyu ele alacağından şüpheleniyorum). Daha karmaşık problemler için kapalı bir form çözümü bulmanın mümkün olmadığını iddia ediyorum.

En iyi işlevi aramak yerine, iyi bir ödül işlevi için bir uzmana bakabiliriz. Bunu yapmak için bir yaklaşım Ters Takviye Öğrenme (IRL) adı verilen bir tekniktir. Bir öğrenme problemini, ödül fonksiyonunun bilinmediği ve öğrenme sürecinin hedefinin pekiştirildiği bir öğrenme problemi olarak formüle eder. Pieter Abbeel ve Andrew Ng tarafından Ters Güçlendirme Öğrenimi ile Çıraklık Öğrenimi makalesi , IRL hakkında bilgi edinmeye başlamak için iyi bir yerdir.

— DaemonMaker
kaynak

0

Herhangi bir denetimli öğrenim biçimi politika alanında yönlendirilmiş bir araştırmadır. Maksimum ödül beklentisini sağlayan politikayı - hangi eylemde bulunacağınızı - bulmaya çalışıyorsunuz. Sorunuzda performansın bir fonksiyonu olarak ödül veriyorsunuz. Bu işlev monotonik olduğu sürece yakınsak olan herhangi bir yöntem sonuçta size maksimum performans verecektir (terminolojinizde de kalın).

Yöntemin ne kadar hızlı birleştiği başka bir konudur ve eğriye bağlı olabilir. Ancak bunun yöntemden yönteme farklılık göstereceğini düşünüyorum.

Tamamen farklı bir sorun, daha karmaşık senaryolar için performansın basit bir skaler olmaması ve bunu tanımlamanın oldukça zor olabileceğidir. Matematikte iyi olmanın ödül fonksiyonu nedir?

— Jakob
kaynak

Yöntemin ne kadar hızlı birleştiği başka bir konudur ve eğriye bağlı olabilir. , tabii ki. Eğrinin öğrenmeyi nasıl etkilediğini anlamaya çalışıyordum ( eğer yapmıyorsa değil , çünkü zaten biliyordur).

— Shahbaz