REINFORCE algoritmasındaki indirim oranı neden iki kez görünüyor?


11

Takviye Öğrenme: Richard S. Sutton ve Andrew G. Barto'nun Bir Giriş (tam taslak, 5 Kasım 2017) adlı kitabını okuyordum .

271 Sayfasında, epizodik Monte-Carlo Politika-Gradyan Yöntemi için sözde kod sunulmaktadır. Bu sahte kod bakarak ben neden indirim oranı 2 kez, bir kez güncelleme durumunda ve dönüş içinde ikinci kez göründüğünü anlayamıyorum. [Aşağıdaki şekle bakın]

resim açıklamasını buraya girin

Görünüşe göre adım 1'den sonraki adımların geri dönüşü, ilk adımın geri dönüşünün sadece bir kesimi. Ayrıca, kitapta sadece bir sayfaya bakarsanız, sadece 1 indirim oranına sahip bir denklem bulursunuz (geri dönüş içindeki).

O zaman yalancı kod neden farklı görünüyor? Tahminimce bir şeyi yanlış anlıyorum:

(13.6)θt+1 =˙ θt+αG,tθπ(birt|St,θt)π(birt|St,θt).

Yanıtlar:


5

İndirim faktörü iki kez görünür ve bu doğrudur.

Bunun nedeni, epizodik bir sorun için (gradyanı alarak) REINFORCE'da en üst düzeye çıkarmaya çalıştığınız işlevin belirli bir (dağıtım) başlangıç ​​durumundan beklenen dönüş olmasıdır:

J(θ)=Eπ(θ)[G,t|St=s0,t=0]

Bu nedenle, atak sırasında, ne zaman döner örnek , G 2 vs bunlar belirtildiği gibi indirim faktörü ile ikinci kez indirgenmiş Eğer çözme sorunun, daha az alakalı olacaktır. Epizodik bir problem ve γ = 0 ile aşırı uçta, REINFORCE sadece ilk eylem için en uygun politikayı bulacaktır.G,1G,2γ=0

Aktör-Kritik gibi sürekli problemlerde çalışan diğer algoritmalar için farklı formülasyonlar kullanır , bu nedenle γ t faktörüne sahip değildir .J(θ)γt


5

Neil'in cevabı zaten (ekstra ile yalancı kod neden olarak bazı sezgi sağlayan terim) doğrudur.γt

Ek olarak, hiçbir şeyi yanlış anlamadığınızı açıklığa kavuşturmak istiyorum , kitaptaki Denklem (13.6) gerçekten sahte koddan farklı .

Şimdi, burada bahsettiğiniz kitabın baskısı yok, ancak 22 Mart 2018'den sonra taslağım var ve bu konudaki metin benzer görünüyor. Bu baskıda:

  • 326 Sayfanın sonuna doğru , Politika Gradyan Teoremine ilişkin kanıtlarında olacağı açıkça belirtilmektedir .γ=1
  • Bu kanıt sonunda 329. sayfada aynı Denklem (13.6) 'ya yol açar.
  • Sözde kodun hemen altında, sayfa 330, aslında Denklem ve sözde kod arasındaki farkı kısaca ele alırlar, bu farkın varsayımından kaynaklandığını söylerler .γ=1
  • Hemen altında, Alıştırma 13.2'de , olduğu durumda değiştirilmiş ispatı elde etmek istiyorsanız neye bakmanız gerektiğine dair bazı ipuçları veriyorlar .γ<1

2
Teşekkürler. Üçüncü taslağınızın açıklaması 2017 taslağında eksikti.
Diego Orellana

2
@DiegoOrellana Artık 22 Mart taslağa bir bağlantı bulamıyor, daha sonra taslak (söz bir tarih bulamıyor) olduğu görülmektedir burada . Bu sürüm aslında süslü bir kapağa sahip, bu yüzden bir taslak yerine son bir versiyon olabilir. Bağlantı gelecekte koparsa, burada yeni bir bağlantının kurulacağından şüpheleniyorum .
Dennis Soemers

3

İnce bir konu.

Orijinal makaledeki A3C algoritmasına bakarsanız (sahte kod için p.4 ve ek S3), aktör-eleştirel algoritması (hem epizodik hem de devam eden problemlerle aynı algoritma) aktöre göre bir gama faktörü tarafından kapatılır. Sutton ve Barto kitabındaki epizodik problemler için eleştirel sahte kod ( http://incompleteideas.net/book/the-book.html sayfasının Ocak 2019 baskısı s.332 ). Sutton ve Barto kitabı, resminizde etiketlenmiş ekstra "ilk" gama sahiptir. Peki, kitap ya da A3C kağıdı yanlış mı? Pek sayılmaz.

Anahtar s. Sutton ve Barto kitabının 199'u:

Eğer iskonto varsa (gama <1), (9.2) 'nin ikinci döneminde bir faktör eklenerek yapılabilecek bir sonlandırma biçimi olarak ele alınmalıdır.

Dikkat çeken konu, iskonto faktör gama için iki yorum olmasıdır:

  1. Gelecekteki uzak ödüllere daha az ağırlık veren çarpma faktörü.
  2. Simüle edilmiş bir yörüngenin herhangi bir zaman adımında sahte bir şekilde sona erme olasılığı, 1 - gama. Bu yorum, devam eden vakalar için değil, sadece epizodik vakalar için anlamlıdır.

Değişmez uygulamalar:

  1. Gelecekteki ödülleri ve ilgili miktarları (V veya Q) gama ile çarpmanız yeterlidir.
  2. Bazı yörüngeleri simüle edin ve her adım adımında rastgele sonlandırın (1 - gama). Sonlandırılmış yörüngeler hemen veya gelecekteki hiçbir ödül vermez.

G,lnπ(bir|s)

γ2G,lnπ(bir|s)0.81G,lnπ(bir|s)

G,lnπ(bir|s)G,

Hangi gamma yorumunu seçerseniz seçin, ancak algoritmanın sonuçlarına dikkat etmelisiniz. Şahsen ben daha basit olduğu için yorum 1'e sadık kalmayı tercih ediyorum. Bu yüzden algoritmayı Sutton ve Barto kitabında değil, A3C kağıdında kullanıyorum.

Sorunuz REINFORCE algoritmasıyla ilgiliydi, ancak ben aktör eleştirmeni tartışıyorum. İki gama yorumu ve REINFORCE'daki ekstra gama ile ilgili aynı konuya sahipsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.