Monte Carlo yöntemleri zamansal farklılıklara göre ne zaman tercih edilir?


12

Son zamanlarda Takviye Öğrenimi hakkında birçok araştırma yapıyorum. Sutton & Barto'nun Güçlendirme Öğrenimi: Çoğu için bir Giriş'i takip ettim .

Markov Karar Süreçlerinin ne olduğunu ve Dinamik Programlama (DP), Monte Carlo ve Geçici Fark (DP) öğrenmesinin bunları çözmek için nasıl kullanılabileceğini biliyorum. Yaşadığım sorun , Monte Carlo'nun TD öğrenimine göre daha iyi bir seçenek olacağını görmemem.

Aralarındaki temel fark, TD-öğrenmenin aksiyon-değer fonksiyonuna yaklaşmak için önyükleme kullanması ve Monte Carlo'nun bunu başarmak için bir ortalama kullanmasıdır. Bu daha iyi bir yol olduğunda gerçekten bir senaryo düşünemiyorum.

Tahminim performansla ilgili bir şey olabilir ama bunu kanıtlayabilecek hiçbir kaynak bulamıyorum.

Bir şey mi eksik veya TD öğrenme genellikle daha iyi bir seçenek mi?

Yanıtlar:


10

TD öğrenimi ve DP ile ilgili temel sorun, adım güncellemelerinin öğrenme parametrelerinin başlangıç ​​koşullarına önyargılı olmasıdır . Önyükleme işlemi genellikle, geçerli tahminler sonuncusu ne olursa olsun, bir ardıl değer Q (s ', a') üzerindeki bir işlevi veya Q (s, a) aramasını günceller. Açıkçası öğrenmenin başlangıcında bu tahminler gerçek ödüllerden veya devlet geçişlerinden hiçbir bilgi içermiyor.

Öğrenme amaçlandığı gibi çalışırsa, önyargı birden fazla yinelemede asimptotik olarak azalacaktır. Bununla birlikte, yanlılık, özellikle politika dışı yöntemler (örneğin, Q Learning) ve fonksiyon tahmin edicileri kullanırken önemli sorunlara neden olabilir. Yani kombinasyon denir birleşmede başarısız kadar muhtemeldir ölümcül üçlüsü içinde Sutton & Barto .

Monte Carlo kontrol yöntemleri bu önyargıdan muzdarip değildir, çünkü her güncelleme Q (s, a) 'nın ne olması gerektiğine dair gerçek bir örnek kullanılarak yapılır. Bununla birlikte, Monte Carlo yöntemleri yüksek varyanstan muzdarip olabilir, bu da TD'ye kıyasla aynı öğrenim derecesine ulaşmak için daha fazla örneğe ihtiyaç duyulduğu anlamına gelir.

Uygulamada, ölümcül triad ile ilgili sorunların üstesinden gelilebiliyorsa TD öğrenimi daha verimli öğreniyor gibi görünmektedir . Deneyim tekrarı ve tahmincilerin aşamalı "dondurulmuş" kopyalarını kullanan son sonuçlar, sorunlara yönelik çözüm sağlar - örneğin Atari oyunları için DQN öğrenicisi bu şekilde oluşturulmuştur.

TD ve Monte Carlo arasında da bir orta yol vardır. Tek adımda TD'den Monte Carlo'da bölüm bölümlerinin tamamına kadar farklı uzunluklardaki yörüngeleri birleştiren ve bunları birleştiren genelleştirilmiş bir yöntem oluşturmak mümkündür. Bu en yaygın varyantı TD (olup ), öğrenme bir parametredir için (etkili tek aşamalı TD öğrenme) (etkili Monte Carlo öğrenme, fakat iyi bir özelliği ile sürekli olarak kullanılabileceğini sorunlar). Tipik olarak, ile arasındaki bir değer en etkili öğrenme ajanını yapar - birçok hiperparametre gibi, kullanılacak en iyi değer soruna bağlıdır.λλ0101

Değer temelli bir yöntem kullanıyorsanız (ilke temelli bir yöntem yerine), TD öğrenimi genellikle pratikte daha fazla kullanılır veya TD (λ) gibi bir TD / MC kombinasyon yöntemi daha da iyi olabilir.

MC için "pratik avantaj" açısından? Monte Carlo öğrenimi kavramsal olarak basit, sağlam ve uygulanması kolaydır, ancak genellikle TD'den daha yavaştır. Genellikle bir öğrenme denetleyicisi motoru için kullanmazdım (basit bir ortam için bir şey uygulamak için acele etmedikçe), ancak örneğin birden fazla aracıyı karşılaştırmak için bunu politika değerlendirmesi için ciddiye alırım. test için önemli olan tarafsız ölçüm.


Öncelikle cevap için teşekkürler. Teoride, taraflı bir algoritmaya kıyasla tarafsız bir algoritmanın nasıl tercih edileceğini görüyorum. Ancak Monte Carlo'nun eğitimin başlangıcında verebileceği yüksek varyans göz önüne alındığında, bunun gerçekten nasıl önemli olduğunu görmüyorum. Hem Monte Carlo hem de TD yanlış yaklaşımlarla başlayacak ve okuduğumdan TD çok daha hızlı birleşecek. Monte Carlo'yu kullanmanın pratik bir avantajını gerçekten bulamıyorum. ( Ölümcül üçlüyü eğlendirmekten kaçınılabilir)
Anne-dirk

1
Eğer (kural tabanlı bir birine karşıt olarak) bir değer tabanlı bir metot kullanılarak halinde Anne-dirk @, daha sonra TD öğrenme olan , genellikle daha uygulamada kullanılan veya bu TD (λ) gibi bir TD / MC birleştirme yöntemi bile olabilir daha iyi. "Pratik avantaj" ile ne demek istediğinizden emin değilim? Monte Carlo öğrenimi kavramsal olarak basit, sağlam ve uygulaması kolaydır. Genellikle bir öğrenme denetleyicisi motoru için kullanmazdım (basit bir ortam için bir şey uygulamak için acele etmedikçe), ancak örneğin birden fazla aracıyı karşılaştırmak için bunu politika değerlendirmesi için ciddiye alacağım.
Neil Slater

@Neul Slater Aaaah Anlıyorum ... Aradığım cevap budur :) Yardımınız için teşekkürler!
Anne-dirk

-1

Temelde ortamınıza bağlıdır.

TD, Markov özelliğinden yararlanır, yani bir sürecin gelecekteki durumları yalnızca mevcut duruma bağlıdır ve bu nedenle TD'yi Markov ortamlarında kullanmak genellikle daha etkilidir.

MC, Markov özelliğinden yararlanmaz, çünkü ödüller Markov dışı ortamlara katkıda bulunan tüm öğrenme sürecine dayanır.


Bunun doğru ya da en azından açıkça görüleceğini sanmıyorum. Markov özelliği, RL bağlamında, devletlerle ilişkilidir. Markov özelliği karşılanmadığında MC algoritmalarının neden daha iyi çalıştığını açıklayabilir misiniz?
nbro

Açık olmak gerekirse, verimlilikten bahsediyordum. Markov özelliğinden faydalanabiliyorsanız, TD avantajlıdır, çünkü herhangi bir durumda, eylemde ve eylemde başlayabilirsiniz ve sonuç her zaman aynı olacaktır, böylece TD hatasını yüksek kesinlik ile hesaplayabilirsiniz. MDP olmayanlarda, kısmen gözlenen bir durum alırsanız, TD çok verimli olmayabilir. Bu, TD'yi MDP olmayanlarda kullanamayacağınız anlamına gelmez, ancak verimsiz olabilir ve TD lambda ile TD yerine daha iyi başarı elde edebilirsiniz (1).
BigBadMe

"Markov özelliğinden faydalanabiliyorsanız, TD avantajlıdır, çünkü herhangi bir durumda başlayabilir, harekete geçebilir ve sonuç her zaman aynı olacaktır", ortam belirleyici ise aynı olacaktır. Bunun Markov özelliği ile ne ilgisi var? İddialarınızı almıyorum. Örneğin POMDP'lerde TD'nin MC'den daha verimsiz olacağını nereden okudunuz?
nbro

1
MDP'ler tanım gereği deterministik değildir . Deterministik bir ortam genellikle şu şekilde tanımlanır: aracı bir durumdaysas ve harekete geçiyor bir, sonra bir sonraki eyalet s'hangi zaman adımı olursa olsun her zaman aynıdır . Aksi halde stokastiktir. MDP'ler sadece çevreyi ve dinamiklerini temsil etmenin bir yoludur.
nbro

1
"Eğer S devletiyseniz, daha önce gerçekleşen tüm olaylar bu durum tarafından tanımlanır ve a eylemini gerçekleştirirseniz, o zaman her zaman aynı S Devletini alırsınız ve r'yi ödüllendirirsiniz.", Hayır , bu özellikle doğru değil, doğru olmayan kısım "a eylemi yaparsanız, her zaman aynı Devlet S'yi alırsınız ve r'yi ödüllendirirsiniz". Bu sadece MDP'nin deterministik bir geçiş ve ödül fonksiyonu varsa doğrudur (ancak bu her zaman böyle değildir).
nbro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.