Taban çizgisi neden bazı zamanlardaki tarafsızlığa koşulludur?


9

Robotikte, takviye öğrenme tekniği bir robotun kontrol modelini bulmak için kullanılır. Ne yazık ki, çoğu politika gradyan yöntemi istatistiksel olarak önyargılıdır ve bu da robotu güvenli olmayan bir duruma getirebilir, bkz. Sayfa 2, Jan Peters ve Stefan Schaal: Motor becerilerin politika gradyanlarıyla takviye öğrenimi, 2008

Motor ilkel öğrenme ile sorunun üstesinden gelmek mümkündür çünkü politika gradyan parametresi optimizasyonu öğrenme adımlarını hedefe yönlendirir.

alıntı: “Degrade tahmini tarafsız ve öğrenme oranları toplamı (a) = 0 karşılarsa, öğrenme sürecinin en azından yerel bir minimum seviyeye yaklaşacağı garanti edilir [...] Bu nedenle, politika gradyanını yalnızca üretilen verilerden tahmin etmemiz gerekir bir görevin yürütülmesi sırasında. ”(Aynı kağıdın 4. sayfası)

In Berkeley RL sınıf için ödev Sorun 1, bu temel timestep t devletin bir fonksiyonudur çıkarılır eğer politika degrade hala tarafsız olduğunu göstermek ister.

θt=1TE(st,at)p(st,at)[b(st)]=0

Böyle bir ispatın ilk adımının ne olabileceği konusunda mücadele ediyorum. Birisi beni doğru yönde gösterebilir mi? İlk düşüncem, b (st) 'nin beklentisini T'ye koşullu hale getirmek için bir şekilde toplam beklenti yasasını kullanmaktı , ama emin değilim. Şimdiden teşekkürler :)

orijinal png denklemine bağlantı


SE'ye hoş geldiniz: AI! (Denklemi MathJax'a dönüştürme özgürlüğünü aldım. Orijinal .png en altta bağlantılıdır.)
DukeZhou

2
Kesin denklemleri yazmak ve LaTeX ile biçimlendirmek için çok fazla zamanınız yok (belki daha sonra hala cevaplanmadıysa), ama bir ipucu. Toplamın politikaya bağlı olmamasını istiyorsunuz, böylece türev 0 olacaktır. Yani bir şekilde p (s, a) politikasını kullanarak bir şeyler ifade etmeye çalışıyorsunuz. Btw cevabı, politika gradyanı bölümündeki Sutton'ın RL Giriş kitabında da bulunabilir.
Hai Nguyen

1
Çok teşekkür ederim! Bu ipucunu başlamak için kullanacağım ve bana Sutton RL'de olduğunu anlattığınız için teşekkür ederim. Bu kitabı okuyorum ve oldukça mükemmel!
Laura C

@LauraC Cevabı herkesten önce bulursanız, lütfen geri dönün ve resmi bir cevap olarak buraya gönderin (insanlar kesinlikle bu soruyu
beğenir

Soru için bağlam bilgisi ekledim.
Manuel Rodriguez

Yanıtlar:


7

Yinelenen beklentiler yasasını kullanarak kişi:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

integrallerle yazılmış ve degradeyi (doğrusallık) içinde

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

şimdi hareket edebilirsin θ (doğrusallık nedeniyle) ve b(st) (bağlı değil at) dış integralin iç integralini oluşturur:

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) (koşullu) olasılık yoğunluk fonksiyonudur, at belirli bir sabit durum için st eşittir 1:

=t=1Tstp(st)b(st)θ1dst=

şimdi θ1=0bu da kanıtın sonucudur.


1

Ödevin bu cevabın yazılmasından iki gün önce yapılmış olduğu anlaşılıyor, ancak yine de bir şekilde alakalı olması durumunda, ilgili sınıf notları (bu, ödevle birlikte soruda verilmesi halinde faydalı olurdu) burada .

Öğrenciye yapılan beklentinin ilk örneği, "Lütfen yinelenen beklentiler yasasını kullanarak 12 Eτpθ(τ) devlet eylemi marjinalini yörüngenin geri kalanından ayırarak. "Denklem 12 budur.

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

Ders notları πθ(at|st)devlet eylemi marjinali olarak. Aranan bir kanıt değil, ayrıştırmayı gerçekleştirmek ve durum eylemi marjinalinin bağımsızlığına ne kadar ulaşılabileceğini göstermek için bir dizi cebirsel adımdır.

Bu alıştırma, ödevde bir sonraki adım için bir hazırlık niteliğindedir ve sadece müfredatında veya sınıf notlarında Toplam Beklenti Yasası içermeyen CS189, Burkeley'in Makine Öğrenmesine Giriş dersinin gözden geçirilmesi üzerine kuruludur.

İlgili tüm bilgiler yukarıdaki notlar için yukarıdaki linktedir ve sadece ara cebir gerektirir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.