Modelsiz ve model tabanlı pekiştirici öğrenme arasındaki fark nedir?


28

Modelsiz ve model tabanlı pekiştirici öğrenme arasındaki fark nedir?

Bana öyle geliyor ki, deneme-yanılma yoluyla öğrenen herhangi bir model içermeyen öğrenen, model tabanlı olarak yeniden değerlendirilebilir. Bu durumda, mankensiz öğrenciler ne zaman uygun olur?


Ayrıca bu cevaba bakınız: qr.ae/TUtHbv .
nbro

Modelsiz bir öğreniciyi model tabanlı olarak yeniden çerçeveleyebilmeniz ne demek?
HelloGoodbye

İşte Nbro'nun bağlantısının kısaltılmış bir versiyonu: Model tabanlı ve
Quora

Yanıtlar:


14

Model temelli pekiştirici öğrenmenin, dünyayı anlamaya ve onu temsil edecek bir model oluşturmaya çalışan bir aracı vardır. Burada örnek 2 işlevleri, devletler geçiş fonksiyon yakalamak için çalışıyor ve ödül fonksiyonu . Bu modelden, ajan bir referansa sahiptir ve buna göre plan yapabilir.TR

Bununla birlikte, bir model öğrenmek gerekli değildir ve aracı bunun yerine Q-learning ya da politika degrade gibi algoritmaları kullanarak doğrudan bir politika öğrenebilir.

Bir RL algoritmasının model tabanlı mı yoksa modelsiz mi olduğunu görmek için basit bir kontrol:

Öğrenmeden sonra, aracı bir sonraki durumun ve ödülün her eylemi gerçekleştirmeden önce ne olacağı konusunda tahminlerde bulunabilirse, bu model tabanlı bir RL algoritmasıdır.

Olmazsa, o zaman modelsiz bir algoritma.


2
Sözlerinizde, "bir model öğrenmek gerekli değildir" ve sorum şu: neden birileri neden model tabanlı bir yaklaşım izlesin?
Vin

4
Aklıma gelen büyük bir örnek, bir aracının çevresi hakkında bir şeyi gerçekten optimize etmeden öğrenmesini istediğiniz zamandır. Bu sürekli öğrenme probleminin bir parçasıdır, "Mesafe sensörüm bir duvara yakın olduğunda duvarları çarptım" gibi bir içsel model kurmanız gerekir, o zaman bu ajan ortaya çıkarsa bu bilgiyi birden fazla göreve genelleyebilir.
Jaden Travnik

2
teşekkürler @Jaden Travnik. neden bazı işleri çözmeden (örneğin mutfağa gitmek gibi) çevrenin bir temsilini öğrenmenin (“mesafem duvara yakınsa duvara çarptığımı vurdum”) öğrenmenin neden faydalı olacağını anlıyorum. peki neden bu , vanilya tarafından denetlenen bir öğrenme görevi değil, modelsiz RL olarak kabul edilir ?
Vin

2
Herhangi bir etiketli veri olmadığı için bu, öğrenmeye nezaret edilmeyecekti. Ajan sinyallerin ne anlama geldiğini bilmiyordu, bu yüzden termometreden bir mesafe sensörüne söyleyemedi. Temsilcinin öğrendiği şey, kendi dünyasının bir modeli olan diğer sinyallere dayanan sinyallerin öngörüleridir.
Jaden Travnik

2
Model tabanlı bir yaklaşımla, aracı, orijinal açıklamanız başına bir sonraki durumu tahmin etmeyi öğrenir. bunu <x, y> öğrenerek yapar, burada x (s1, eylem) ve y (s2, ödül). yanlış yorumluyorsam özür dilerim, ama bu denetlenen öğrenme değil mi?
Vin

12

Modelsiz ve model tabanlı pekiştirici öğrenme arasındaki fark nedir?

Takviye Öğrenme olarak, "model tabanlı" ve "modeli içermeyen" do not ikincisi olarak kullanılabilse de, (sonraki halini tahmin etmek bile değerlerini tahmin etmek için bir nöral ağ veya diğer istatistiksel öğrenme modelinin kullanılması bakın veya model tabanlı bir algoritmanın parçası ve algoritmanın model tabanlı mı yoksa modelsiz mi olduğuna bakılmaksızın "model" olarak adlandırılır).

Bunun yerine, terim kesinlikle öğrenme sırasında veya oyunculuk yaparken, aracının çevre tepkisine ilişkin tahminleri kullanıp kullanmadığını belirtir. Temsilci, bir sonraki ödül modelinin ve bir sonraki durumun modelinden tek bir tahmin kullanabilir (bir örnek) veya modelden beklenen bir sonraki ödülün veya bir sonraki durumların ve bir sonraki ödüllerin tam dağılımını isteyebilir . Bu tahminler tamamen öğrenme aracısı dışında sağlanabilir - örneğin bir zar veya masa oyununun kurallarını anlayan bilgisayar koduyla. Veya, aracı tarafından öğrenilebilirler, bu durumda yaklaşık olacaktır.

Sadece uygulanan ortamın bir modeli olduğu için, bir RL aracısının "model tabanlı" olduğu anlamına gelmez. "Model tabanlı" olarak nitelenmek için, öğrenme algoritmalarının modele açıkça başvurması gerekir:

  • Sadece Monte Carlo Kontrolü, SARSA, Q-learning, Actor-Critic gibi deneyimlerden elde edilen algoritmalar "modelsiz" RL algoritmalarıdır. Çevreden gelen gerçek örneklere güvenirler ve davranışları değiştirmek için asla bir sonraki durumun ve bir sonraki ödülün ürettiği öngörülerini asla kullanmazlar (yine de, bir model olmaya yakın olan deneyim belleğinden örnek alabilirler).

  • Arketipik model tabanlı algoritmalar Dinamik Programlama'dır (Politika İterasyonu ve Değer İterasyonu) - bunlar, optimal eylemleri hesaplamak için modelin bir sonraki durum ve ödülün tahminlerini veya dağıtımlarını kullanır. Özellikle Dinamik Programlamada model, durum geçiş olasılıklarını ve herhangi bir durum, eylem çiftinden beklenen ödülü sağlamalıdır. Bunun nadiren öğrenilmiş bir model olduğuna dikkat edin.

  • Bir kontrol sistemi olarak çalışmak ve eylemleri seçmek için, sadece durum değerlerini kullanan temel TD öğrenmesi de model tabanlı olmalıdır. En iyi eylemi seçmek için, her eylemde ne olacağını öngören bir model sorgulamak ve gibi bir politika uygulamak gerekir. burada bir ödül almak olasılığıdır ve bir sonraki durumu eylem çekerken durumu içinde . Bu işlev esasen modeldir.π(s)=argmaxas,rp(s,r|s,a)(r+v(s))p(s,r|s,a)rsasp(s,r|s,a)

RL literatürü “model” ile “model tabanlı” ve “modelsiz” öğrenme için bir ortam modeli olarak sinir ağları gibi istatistiksel öğrenicilerin kullanımı arasında farklılık gösterir.

RL'de sinir ağları genellikle bir durum ve eylem çifti verilen toplam getiriyi (indirimli kazanımların toplamı) tahmin eden Q değeri gibi değer işlevlerini öğrenmek ve genelleştirmek için kullanılır. Böyle eğitimli bir sinir ağı, örneğin denetlenen öğrenmede genellikle “model” olarak adlandırılır. Bununla birlikte, RL literatüründe, belirsizlikten kaçınmak için böyle bir ağ için kullanılan "işlev yaklaşıklayıcısı" terimini göreceksiniz.

Bana öyle geliyor ki, deneme-yanılma yoluyla öğrenen herhangi bir model içermeyen öğrenen, model tabanlı olarak yeniden değerlendirilebilir.

Burada yararlı model yapan herhangi bir yapıyı dahil etmek için "model" kelimesini genel olarak anladığınızı düşünüyorum. Bu, örneğin SARSA'daki Q değerleri tablosu için geçerli olacaktır.

Bununla birlikte, yukarıda açıklandığı gibi, terimin RL’de kullanılması böyle değildir. Bu nedenle, RL'nin yararlı içsel temsiller oluşturduğuna dair anlayışınız doğruysa da, teknik olarak bunun “model içermeyen” olarak “model tabanlı” olarak yeniden çerçevelenmesi için kullanılabileceğini doğrulamazsınız, çünkü bu terimlerin RL'de çok özel bir anlamı vardır. .

Bu durumda, mankensiz öğrenciler ne zaman uygun olur?

Genel olarak RL'deki güncel sanat durumuyla, problem tanımının bir parçası olarak verilen doğru bir modeliniz yoksa, modelsiz yaklaşımlar genellikle üstündür.

Çevrenin prediktif modellerini oluşturan ve “yan etki” (hala modelsiz bir algoritma olmasına rağmen) olarak yapmak ajanlar için hala büyük ilgi görüyor. Politika veya değer ağlarında da kullanılabilen özellikler. Bununla birlikte, planlama için kendi modellerini öğrenen model tabanlı ajanların, bu modellerdeki yanlışlığın kararsızlığa neden olabileceği bir problemi vardır (yanlışlıklar, ajanın bakacağı geleceğe daha da katlanır). Gelecek vaat eden bazı yollar, planlama sırasında öğrenilen modele ne zaman ve ne kadar güvenileceğine karar vermek için hayal gücü temelli ajanlar ve / veya mekanizmalar kullanılarak yapılmaktadır .

Şu anda (2018'de), başlangıçta açıkça bilinen bir modeli olmayan bir ortamda gerçek dünyadaki bir sorun varsa, en güvenli şey DQN veya A3C gibi modsuz bir yaklaşım kullanmaktır. Bu alan hızlı hareket ettikçe değişebilir ve yeni, daha karmaşık mimariler birkaç yıl içinde normal olabilir.


1
Küçük bir düzeltme, normal olarak "model tabanlı" veya "model ücretsiz" terimleri, MCTS gibi planlama algoritmalarında kullanılmaz. Sadece öğrenme algoritmalarını sınıflandırmak için kullanılır.
Miguel Saraiva

@ MiguelSaraiva: Bundan% 100 emin değilim, ancak MCTS referansını kaldırdım. DynaQ’u, terimlerin kullanımının bu şekilde sınırlandırılması konusunda nereye koyacaksınız? Tüm algoritmalar MDP modelinin ve iyileştirme politikalarının ortak bir bakış açısını paylaştığında, bodardarların planlama ve öğrenme arasında nerede olduğunu söylemek zorlaştığını düşünüyorum.
Neil Slater

Yanılıyor olabilirim, bu alanda acemiyim. Ben sadece aynı yorumu yaptıktan sonra bu yorumu yapan alandan bir öğretmeni hatırlıyorum.
Miguel Saraiva

5

Güçlendirme öğreniminde (RL), çevre ile etkileşime giren bir ajan var (zaman adımlarında). Her adımda, aracı karar verir ve bir yürüten bir işlem , akım taşıyarak ajana bir ortamda ve çevre şekilde cevap verebilmektedir ilgili durum (çevre), , sonraki duruma (çevre), , ve skaler bir sinyal yayarak, ödül denir , . Prensip olarak, bu etkileşim sonsuza kadar veya örneğin ajan ölene kadar devam edebilir.as s rssr

Temsilcinin asıl amacı "uzun vadede" en yüksek miktarda ödül toplamaktır. Bunu yapmak için, aracının optimal bir politika bulması gerekiyor (kabaca, çevrede davranması gereken en uygun strateji). Genel olarak, bir politika, çevrenin mevcut durumu göz önüne alındığında, çevrede yürütülmek üzere bir eylem (veya politika stokastikse eylemler üzerine olasılık dağılımı) çıkaran bir fonksiyondur . Dolayısıyla bir politika, ajan tarafından bu ortamda davranmak için kullanılan "strateji" olarak düşünülebilir. En uygun politika (belirli bir ortam için), eğer takip edilirse, aracının uzun vadede (aracının amacı olan) en büyük ödülü toplamasını sağlayacak bir politikadır. RL'de en uygun politikaları bulmakla ilgileniyoruz.

Ortam deterministik (kabaca aynı durumdaki aynı eylem, tüm zaman adımları için aynı sonraki duruma yol açar) veya stokastik (veya deterministik olmayan) olabilir, yani ajan bir eylemde bulunursa belirli bir durumda, çevrenin ortaya çıkan bir sonraki durumu mutlaka her zaman aynı olmayabilir: belirli bir durum veya başka bir olma olasılığı vardır. Elbette, bu belirsizlikler en uygun politikayı zorlaştırma görevini yerine getirecektir.

RL'de problem genellikle bir Markov karar süreci (MDP) olarak matematiksel olarak formüle edilir . Bir MDP, ortamın "dinamiklerini", yani, ortamın, aracının belirli bir durumda yapabileceği olası eylemlere tepki vermesini temsil etmenin bir yoludur. Daha doğrusu, bir MDP, çevrenin mevcut durumu ve bir eylem (aracının alabileceği) herhangi bir hareket etme olasılığını ortaya çıkaran bir işlev olan bir geçiş işlevi (veya "geçiş modeli") ile donatılmıştır. sonraki devletlerin. Bir ödül işleviayrıca bir MDP ile ilişkilidir. Sezgisel olarak, ödül işlevi ortamın mevcut durumu (ve aracının ve çevrenin bir sonraki durumu tarafından gerçekleştirilen bir eylem) göz önüne alındığında bir ödül verir. Toplu olarak, geçiş ve ödül işlevlerine genellikle çevre modeli denir . Sonuç olarak, MDP problemdir ve sorunun çözümü bir politikadır. Ayrıca, çevrenin "dinamikleri", geçiş ve ödüllendirme fonksiyonları (yani, "model") tarafından yönetilir.

Bununla birlikte, çoğu zaman MDP'ye sahip değiliz; yani, çevreye ilişkin MDP'nin geçiş ve ödül işlevlerine sahip değiliz. Dolayısıyla, MDP'den bir politika tahmin edemiyoruz, çünkü bilinmemektedir. Genel olarak, MDP'nin çevre ile ilgili geçiş ve ödül işlevlerini gerçekleştirmiş olsaydık, onlardan yararlanabilir ve optimal bir politika (dinamik programlama algoritmaları kullanarak) alabiliriz.

Bu işlevlerin yokluğunda (yani, MDP bilinmediğinde), optimal politikayı tahmin etmek için, aracının çevre ile etkileşime girmesi ve çevrenin tepkilerini gözlemlemesi gerekir. Buna genellikle "pekiştirici öğrenme sorunu" denir, çünkü aracının çevrenin dinamikleri hakkındaki inançlarını pekiştirerek bir politika tahmin etmesi gerekecektir . Zamanla, temsilci ortamın faaliyetlerine nasıl tepki verdiğini anlamaya başlar ve böylece en uygun politikayı tahmin etmeye başlayabilir. Dolayısıyla, RL probleminde, ajan bilinmeyen (veya kısmen bilinen) bir ortamda davranmak için en uygun politikayı ("deneme-yanılma" yaklaşımı kullanarak) tahmin ederek tahmin eder.

Bu bağlamda model tabanlıalgoritma, en uygun politikayı tahmin etmek için geçiş işlevini (ve ödül işlevini) kullanan bir algoritmadır. Temsilci, sadece, çevre ile etkileşime girerken veya ajana verilebilecek (örneğin başka bir ajan tarafından) verilebilecek geçiş fonksiyonunun ve ödül fonksiyonlarının bir yaklaşımına erişebilir. Genel olarak, model tabanlı bir algoritmada, ajan, geçiş fonksiyonunun (ve ödül fonksiyonunun) bir tahminine sahip olduğu için çevrenin dinamiklerini (öğrenme aşaması sırasında veya sonrasında) tahmin edebilir. Bununla birlikte, aracının optimal politika tahminini iyileştirmek için kullandığı geçiş ve ödüllendirme işlevlerinin sadece "gerçek" işlevlerin yaklaşıkları olabileceğine dikkat edin. Bu nedenle, en uygun politika asla bulunamayabilir (bu yaklaşımlar nedeniyle).

Bir örnek içermeyen algoritma çevre dinamiklerini (geçiş ve ödül fonksiyonları) kullanılarak ya da tahmin olmaksızın uygun bir politika tahmin eden bir algoritmadır. Uygulamada, modelsiz bir algoritma, ne geçiş işlevini ne de ödül işlevini kullanmadan doğrudan bir "değer işlevini" veya "politika" yı doğrudan deneyimle (yani madde ve çevre arasındaki etkileşimi) tahmin eder. Bir değer işlevi, tüm durumlar için bir durumu (veya bir durumda yapılan bir eylemi) değerlendiren bir işlev olarak düşünülebilir. Bu değer fonksiyonundan bir politika daha sonra türetilebilir.

Uygulamada, model tabanlı veya model içermeyen algoritmalar arasında ayrım yapmanın bir yolu, algoritmalara bakmak ve onların geçiş veya ödül işlevini kullanıp kullanmadıklarına bakmaktır.

Örneğin, Q-öğrenme algoritmasındaki ana güncelleme kuralına bakalım :

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))

Gördüğümüz gibi, bu güncelleme kuralı MDP tarafından tanımlanan herhangi bir olasılık kullanmamaktadır. Not: sadece bir sonraki adımda elde edilen (eylemden sonra) elde edilen ödüldür, ancak önceden bilinmesi gerekmez. Yani, Q-öğrenme modelsiz bir algoritmadır.Rt+1

Şimdi, politika geliştirme algoritmasının ana güncelleme kuralına bakalım :

Q(s,a)sS,rRp(s,r|s,a)(r+γV(s))

MDP modeli tarafından tanımlanan bir olasılık olan kullandığını hemen görebiliriz . Dolayısıyla, politika geliştirme algoritmasını kullanan politika yinelemesi (dinamik bir programlama algoritması) model tabanlı bir algoritmadır.p(s,r|s,a)


2

Modelsiz RL

Modelsiz RL'de, aracı ortam modeline erişemez. Çevreyle, devlet geçişini ve ödülleri öngören bir işlev kastediyorum.

Yazma zamanı itibariyle, modelsiz yöntemler daha popülerdir ve kapsamlı bir şekilde araştırılmıştır.

Model Tabanlı RL

Model Tabanlı RL'de, aracı ortam modeline erişebilir.

Ana avantaj, bunun ajanın önceden düşünerek önceden plan yapmasına izin vermesidir. Temsilciler sonuçları önceden planlamaktan öğrenilmiş bir politikaya damıtırlar. Model Tabanlı RL'nin ünlü bir örneği AlphaZero'dur .

Ana dezavantajı, çoğu zaman çevrenin temel gerçeği temsilinin genellikle mevcut olmamasıdır.


Aşağıda RL algoritmalarının ayrıntılı olmayan bir taksonomisi bulunmaktadır ve bu, RL manzarasını daha iyi görselleştirmenize yardımcı olabilir.

görüntü tanımını buraya girin


1

Göre OpenAI - RL Algoritmaların türleri , devlet geçişler ve ödülleri tahmin ortamın bir modeli, yani bir işlevi kullanmak algoritmaları, denir model tabanlı yöntemler ve bu bilmediğimiz denir modeli içermeyen . Bu modele ajanı verilmiş veya ajan tarafından öğrenilmiş olabilir.

Bir model kullanmak, aracının ileriyi düşünerek, bir dizi olası seçenek için ne olacağını görerek ve seçenekleri arasında açıkça karar vermesini sağlar. Bu, uzun vadeli düşünmeyi gerektiren problemlerle karşılaştığında faydalı olabilir. Planlama yapmanın bir yolu, bir tür ağaç araması, örneğin Monte Carlo ağacı araması (MCTS) veya - kullanabileceğimi düşündüğüm gibi - hızla keşfedilen rastgele ağacın (RRT) varyasyonlarını kullanmaktır . Örneğin , hayal eden ve planlayan ajanlara bakınız .

Temsilci daha sonra sonuçları önceden planlanmış bir politika haline getirebilir - uzman yinelemesi olarak bilinir.

Bir model ayrıca, devletin model kullanılarak güncellendiği benzetilmiş veya "hayal edilen" bir ortam yaratmak ve aracıyı, Dünya Modelleri gibi o ortamın içinde öğrenmesini sağlamak için de kullanılabilir .

Birçok gerçek dünya senaryosunda, çevrenin temel gerçeği modeli aracı için mevcut değildir. Eğer bir temsilci bu durumda bir model kullanmak isterse, birkaç nedenden dolayı zor olabilecek modeli öğrenmesi gerekir.

Bununla birlikte, aracının zaten bilinen bir modeli kullandığı ve dolayısıyla modelin oyunun kuralları biçiminde olduğu AlphaZero'daki gibi, modeli öğrenmesi gerekmeyen durumlar vardır.


1

Birkaç iyi cevap olmasına rağmen, bu paragrafı, Farkla ilgili daha psikolojik bir bakış açısı için Güçlendirme Öğrenimi: Giriş , Sayfa 303'ten eklemek istiyorum .

Modelsiz ve model temelli pekiştirme öğrenme algoritmaları arasındaki ayrım, psikologların öğrenilen davranış biçimlerinin alışılmış ve hedefe yönelik kontrolü arasında yaptığı ayrımlara karşılık gelir. Alışkanlıklar uygun uyaranlarla tetiklenen ve daha sonra veya daha az otomatik olarak gerçekleştirilen davranış kalıplarıdır. Psikologların ifadeyi nasıl kullandıklarına göre, hedefe yönelik davranış, amaçların değeri ve eylemler ve sonuçları arasındaki ilişki bilgisi ile kontrol edildiği anlamında makuldür. Alışkanlıkların bazen önceden belirlenmiş uyaranlarla kontrol edildiği söylenirken, hedefe yönelik davranışın sonuçlarıyla kontrol edildiği söylenir (Dickinson, 1980, 1985). Hedefe yönelik kontrol, ortam hayvanın hareketlerine tepki verme biçimini değiştirdiğinde hayvanın davranışını hızla değiştirebilme avantajına sahiptir. Alışılmış davranış alışkın bir ortamdan girmeye hızlı tepki verirken, ortamdaki değişiklikleri hızlıca ayarlayamaz.

Oradan devam ediyor ve sonradan güzel bir örnek veriyor.

Bence her zaman diğer cevaplarda açıklanmayan asıl nokta, modelsiz bir yaklaşımda, eyleminizle ilgili ödülün ne olduğunu size anlatmak için hala bir tür ortama ihtiyaç duymanızdır. En büyük fark, modelle ilgili herhangi bir bilgiyi kaydetmeniz gerekmemesidir. Ortama seçtiğiniz eylemi verir, tahmini politikanızı günceller ve unutursunuz. Öte yandan, modele dayalı yaklaşımlarda ya devlet geçiş tarihini Dinamik Programlamadaki gibi bilmeniz ya da tüm olası sonraki durumları ve bunlarla ilişkili ödülleri mevcut durumdan hesaplayabilmeniz gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.