Denetimli öğrenme, denetimsiz öğrenme ve güçlendirici öğrenme: İş akışı temelleri


30

Denetimli öğrenme

  • 1) İnsan, girdi ve çıktı verilerine dayalı bir sınıflandırıcı oluşturur.
  • 2) Bu sınıflandırıcı bir veri eğitim seti ile eğitilmiştir.
  • 3) Bu sınıflandırıcı bir veri test seti ile test edilmiştir.
  • 4) Çıktı tatmin edici ise dağıtım

"Bu verileri nasıl sınıflandıracağımı biliyorum, sıralamanız için yalnızca size (sınıflandırıcı) ihtiyacım var."

Yöntem noktası: Etiketleri sınıflamak veya gerçek sayıları üretmek

Denetimsiz öğrenme

  • 1) Bir insan giriş verilerine dayanan bir algoritma oluşturur
  • 2) Bu algoritma (algoritmanın sınıflandırıcıyı oluşturduğu) bir test verisi seti ile test edilir.
  • 3) Sınıflandırıcı tatmin edici ise dağıtım

"Bu verileri nasıl sınıflandıracağımı bilmiyorum, sen (algoritma) benim için bir sınıflandırıcı yaratabilir misin?"

Yöntem noktası: Etiketleri sınıflamak veya tahmin etmek (PDF)

Takviye öğrenme

  • 1) Bir insan giriş verilerine dayanan bir algoritma oluşturur
  • 2) Bu algoritma, bir kullanıcının algoritmayı aldığı eylemle algoritmayı ödüllendirdiği veya cezalandırdığı girdi verilerine bağlı bir durum sunar , bu zamanla devam eder.
  • 3) Bu algoritma ödül / cezadan öğrenir ve kendini günceller, bu devam eder
  • 4) Her zaman üretimdedir, eyaletlerden eylemler sunabilmek için gerçek verileri öğrenmesi gerekir

"Bu verileri nasıl sınıflandıracağım hakkında hiçbir fikrim yok, bu verileri sınıflandırabilir misiniz ve doğruysa size bir ödül vereceğim veya doğru değilse sizi cezalandıracağım".

Bu uygulamaların akışının bu tür, ben ne hakkında çok şey duyuyoruz, ama pratik ve örnek bilgidir sona çok az!


Sorunuzu sunduğunuz şekli gerçekten beğendim. Bu cevabı faydalı buldum: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh 15:15

Yanıtlar:


3

Bu, temel fikirlere çok hoş ve küçük bir giriştir!

Güçlendirme Öğrenmesi

Takviye öğrenmenin kullanım durumunun tam olarak doğru olmadığını düşünüyorum. Sınıflandırma terimi uygun değildir. Daha iyi bir açıklama olacaktır:

Bu ortamda nasıl hareket edeceğimi bilmiyorum , iyi bir davranış bulabilir misiniz ve bu arada size geri bildirimde bulunacağım .

Başka bir deyişle amaç, bir şeyi iyi sınıflandırmak yerine bir şeyi iyi kontrol etmektir .

Giriş

  • Çevre ile tanımlanır
    • tüm olası durumlar
    • eyaletlerde olası eylemler
  • Ödül fonksiyon durumu ve / veya harekete bağlıdır

Algoritma

  • Ajan
    • bir durumda
    • Bir alan işlem başka bir durumuna transferine
    • eyaletteki eylem için bir ödül aldı

Çıktı

  • Temsilci ödülü en üst düzeye çıkaran en uygun politikayı bulmak istiyor

2

Feragatname: Uzman değilim ve daha da güçlendirici öğrenme ile bir şey yapmadım bile (henüz), bu nedenle herhangi bir geri bildirim memnuniyetle karşılanacaktır ...

İşte listene bazı küçük matematiksel notlar ve ne zaman kullanacağına dair bazı farklı düşünceler ekleyen bir cevap. Umarım sayım yeterince açıklayıcıdır:

Denetimli

  1. VerilerimizD={(x0,y0),(x1,y1),,(xn,yn)}
  2. tüm noktaları için bazı kayıp / maliyet ölçüsünü en aza indiren bir modelgL(yi,g(xi))0i<l
  3. Modelin ne kadar iyi genel olduğu hakkında bir fikir edinmek için geri kalan verinin kaybı / maliyeti hesaplayarak ( ) modeli değerlendiriyoruz.Llin

Örnekler verebiliriz ancak girdiden çıktıya almak için bir algoritma veremiyoruz

Sınıflandırma ve regresyon için ayar

Eğiticisiz

  1. VerilerimizD={x0,x1,,xn}
  2. Verilerimiz hakkında bize biraz fikir veren bir model arıyoruz .g
  3. Yararlı / ilginç bir şey yapıp yapmadığımızı söyleyecek çok az tedbirimiz var.

Bazı verilerimiz var, ancak yararlı / ilginç şeyler aramaya nereden başlayacağımız hakkında hiçbir fikrimiz yok

Kümelenme, boyutsallığın azaltılması, gizli faktörlerin bulunması, üretken modeller vb.

Güçlendirme

  1. Veri yok
  2. Bazı ödül ölçütlerini en üst düzeye çıkarmak amacıyla, ölçümlere ve / veya önceki işlemlere dayanabilen data (genellikle eylemler denir) üreten bir modeli inşa ediyoruz , Bu model tarafından genellikle bilinmemektedir (ayrıca öğrenilmesi gerekir).x i R ( x i )gxiR(xi)
  3. Öğrenmek için biraz zaman harcadıktan sonra, ödül işleviyle değerlendiriyoruz.

Bir şeyi nasıl yapacağımız hakkında hiçbir fikrimiz yok, ancak yanlış mı yanlış mı yapıldığını söyleyebiliriz.

Bu, sıralı karar görevleri için özellikle yararlı görünüyor.

Kaynaklar:
Si, J., Barto, A., Powell, W. ve Wunsch, D. (2004) Güçlendirme Öğrenmesi ve Denetimli Öğrenmeyle İlişkisi, Öğrenme ve Yaklaşık Dinamik Programlama El Kitabı, John Wiley & Sons, Inc., Hoboken, NJ, ABD. doi: 10.1002 / 9780470544785.ch2

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.