Lineer fonksiyon yaklaşımı ile ağırlıkların Q-değerlerine nasıl sığacağı


12

Pekiştirme öğrenmesinde doğrusal fonksiyon yaklaşımı genellikle büyük durum uzayları olduğunda kullanılır. (Arama tabloları mümkün olmadığında.)

Lineer fonksiyon yaklaşımı ile S- değeri formu,

S(s,bir)=w1f1(s,bir)+w2f2(s,bir)+,

burada ağırlıklar ve özelliklerdir.f iwbenfben

Özellikler kullanıcı tarafından önceden tanımlanmıştır. Sorum şu ki, ağırlıklar nasıl belirlenir?

öğrenme üzerine fonksiyon yaklaşımı ile ilgili bazı ders slaytlarını okudum / . Birçoğunun takip eden doğrusal regresyon slaytları var. Onlar sadece slayt olduklarından, eksik olma eğilimindedirler. İki konu arasındaki bağlantının / ilişkinin ne olduğunu merak ediyorum.S-

Yanıtlar:


11

Fonksiyon yaklaşımı temel olarak bir regresyon problemidir (genel anlamda, yani sınıfın ayrık olduğu sınıflamaya zıttır), yani kişi girdiden ( f(s,a) ) gerçek değerli bir fonksiyon eşlemesini öğrenmeye çalışır. çıkış Q(s,a) . Tüm giriş / çıkış değerlerinin tam bir tablosuna sahip olmadığımızdan, bunun yerine Q(s,a) 'yı aynı anda öğrenin ve tahmin edin, parametreler (burada: w ağırlıkları ) doğrudan verilerden hesaplanamaz. Buradaki yaygın yaklaşım gradyan iniş kullanmaktır .

İşte Değer Fonksiyonu Yaklaşımı ile Q(s,a) öğrenmek için genel algoritma

  • Başlatma parametre vektörü w=(w1,w2,....,wn) rastgele (örn [0,1])
  • Her bölüm için:

    1. s bölümün başlangıç ​​durumu
    2. a politika tarafından verilen eylemπ (tavsiye:ϵ -gözlü)
    3. Aksiyon al a , ödül gözlemlemek r ve bir sonraki devlet s
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    s terminal olana kadar 2-5 tekrarlayın

nerede ...

  • α[0,1] öğrenme oranıdır
  • γ[0,1] iskonto oranıdır
  • maxaQ(s,a) eylema durum içindes maksimizeQ(s,a)
  • wQ(s,a),Q(s,a)nınwcinsinden gradyanıdır. Lineer bir durumda, gradyan bir vektör basitçe(f1(s,a),...,fn(s,a))

Parametreler / ağırlık güncellemesi (4. adım) şu şekilde okunabilir:

  • (r+γmaxaQ(s,a))(Q(s,a)) tahmin arasındaki hataQ(s,a) ve için "gerçek" bir değerQ(s,a) şimdielde edilenödülr olanPLUS,daha sonra açgözlü politikayı izleyerek beklenen, indirimli ödülüARTIYORγmaxaQ(s,a)
  • Böylece parametre / ağırlık vektörü α ile ayarlanan ölçülen hata miktarıyla en dik yöne ( wQ(s,a) gradyanı ile verilir) kaydırılır .α

Ana kaynak:

Bölüm 8 (Genel olarak önerilen) kitabın Değer Yaklaşımı Takviye Öğrenimi: Sutton ve Barto'nun Bir Tanıtımı (Birinci Baskı). Genel algoritma, V ( s ) yerine Q(s,a) hesaplamak için yapıldığı için değiştirildi . Degrade inişe odaklanmak için uygunluk izlerini e düşürdüm , bu nedenle sadece bir adım yedekleme kullanıyorumV(s)e

Diğer referanslar


2
Barto & Sutton için kırık link! Şimdi burada -> incompleteideas.net/book/the-book.html :) ve ebook olarak incompleteideas.net/book/ebook ama bir mobi dosyası nerede bulacağımı bilmiyorum
grisaitis

1
Q (s, a) 'nın gradyanı, her bir elementin fi (s, a) olduğu wa sütunu vektörüne göre değil, dediğin gibi tüm fi'nin toplamı değil mi? Amaç, her bir ağırlığın çarptığı özelliğin değerine göre değiştirilmesidir.
Miguel Saraiva

@MiguelSaraiva Evet, düzeltti. Çok teşekkür ederim.
steffen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.