Fonksiyon yaklaşımı temel olarak bir regresyon problemidir (genel anlamda, yani sınıfın ayrık olduğu sınıflamaya zıttır), yani kişi girdiden ( f(s,a) ) gerçek değerli bir fonksiyon eşlemesini öğrenmeye çalışır. çıkış Q(s,a) . Tüm giriş / çıkış değerlerinin tam bir tablosuna sahip olmadığımızdan, bunun yerine Q(s,a) 'yı aynı anda öğrenin ve tahmin edin, parametreler (burada: w ağırlıkları ) doğrudan verilerden hesaplanamaz. Buradaki yaygın yaklaşım gradyan iniş kullanmaktır .
İşte Değer Fonksiyonu Yaklaşımı ile Q(s,a) öğrenmek için genel algoritma
nerede ...
- α∈[0,1] öğrenme oranıdır
- γ∈[0,1] iskonto oranıdır
- maxa′Q(s′,a′) eylema′ durum içindes′ maksimizeQ(s′,a)
- ∇⃗ wQ(s,a),Q(s,a)nınwcinsinden gradyanıdır. Lineer bir durumda, gradyan bir vektör basitçe(f1(s,a),...,fn(s,a))
Parametreler / ağırlık güncellemesi (4. adım) şu şekilde okunabilir:
- (r+γ∗max′aQ(s′,a′))−(Q(s,a)) tahmin arasındaki hataQ(s,a) ve için "gerçek" bir değerQ(s,a) şimdielde edilenödülr olanPLUS,daha sonra açgözlü politikayı izleyerek beklenen, indirimli ödülüARTIYORγ∗max′aQ(s′,a′)
- Böylece parametre / ağırlık vektörü α ile ayarlanan ölçülen hata miktarıyla en dik yöne ( ∇⃗ wQ(s,a) gradyanı ile verilir) kaydırılır .α
Ana kaynak:
Bölüm 8 (Genel olarak önerilen) kitabın Değer Yaklaşımı Takviye Öğrenimi: Sutton ve Barto'nun Bir Tanıtımı (Birinci Baskı). Genel algoritma, V ( s ) yerine Q(s,a) hesaplamak için yapıldığı için değiştirildi . Degrade inişe odaklanmak için uygunluk izlerini e düşürdüm , bu nedenle sadece bir adım yedekleme kullanıyorumV(s)e
Diğer referanslar