Birden fazla sürekli eylem durumunda politika gradyanları nasıl uygulanabilir?


11

Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır.

Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm:

L(θ)=log(P(a1))A,

nerede A ödüllerin avantajı, P(a1) ile karakterize edilir μ ve σ2buradaki Sarkaç ortamında olduğu gibi sinir ağından çıkıyor: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py .

Sorun şu ki, politika gradyanlarını (gradyanı Q işlevinden aktararak farklı bir yaklaşım kullanan aktör-eleştirel yöntemler değil) kullanarak 2+ sürekli eylem hakkında herhangi bir makale bulamıyorum.

Bunu LunarLander ortamında 2 sürekli eylem için TRPO kullanarak nasıl yapacağınızı biliyor musunuz ?

Aşağıdaki yaklaşım ilke gradyan kaybı işlevi için doğru mu?

L(θ)=(logP(a)+logP(a2))A

Yanıtlar:


6

Söylediğiniz gibi, Aktör-Eleştirmen tarafından seçilen eylemler normal olarak normal bir dağılımdan gelir ve mevcut duruma göre uygun ortalama ve standart sapmayı bulmak ajanın görevidir. Çoğu durumda bu bir dağılım yeterlidir, çünkü sadece 1 sürekli eylem gereklidir. Bununla birlikte, robotik gibi alanlar AI ile daha entegre hale geldikçe, 2 veya daha fazla sürekli eylemin gerekli olduğu durumlar büyüyen bir sorundur.

Bu sorunun 2 çözümü vardır: İlk ve en yaygın olanı, her sürekli eylem için, kendi 1 boyutlu ortalamasını ve standart sapmasını öğrenen ayrı bir ajanın olmasıdır. Durumunun bir kısmı, tüm sistemin ne yaptığının bağlamını vermek için diğer ajanların eylemlerini de içerir. Bunu laboratuvarımda yaygın olarak yapıyoruz ve işte robotik bir kolu hareket ettirmek için birlikte çalışan 3 aktör eleştirmeni ile bu yaklaşımı tanımlayan bir çalışma.

İkinci yaklaşım, bir temsilcinin bir politikanın çok değişkenli (genellikle normal) dağılımını bulmasını sağlamaktır . Teoride, bu yaklaşım, eş-varyans matrisine dayalı dağılımı "döndürerek" daha kısa bir politika dağılımına sahip olabilse de, eş-varyans matrisinin tüm değerlerinin de öğrenilmesi gerektiği anlamına gelir. Bu, öğrenilmesi gereken değerlerin sayısını artırırn sürekli çıkışlar 2n (ortalama ve stddev), n+n2 (n anlamı ve bir n×nkovaryans matrisi). Bu dezavantaj, bu yaklaşımı literatürde popüler hale getirmemiştir.

Bu daha genel bir cevaptır, ancak size ve diğerlerine ilgili sorunlarla ilgili yardımcı olacaktır.


1
Jaden harika cevap için teşekkürler. 1. Çok etmenli mimariyi denedim, ama çok verimli değil. Birleşmesi çok daha uzun sürüyor. 2. Şimdi çok değişkenli dağıtım da benim için açık görünüyor, teşekkür ederim.
Urtans'ı

1
Uygulamaya ve mimariye bağlı olarak (eğer derin bir ağsa), aracıların düşük seviye özellikleri paylaşmasını ve daha sonra kendi değer işlevlerine dalmasını sağlayabilirsiniz. Ek olarak, 1 eleştirmen ve birden fazla aktöre sahip olmak da mimariyi artırmanın bir yoludur.
Jaden Travnik

Şu anda önerilerinizi aktör eleştirmeni değil, TRPO'ya (sadece politika gradyan yöntemleri) uygulamak istiyorum. Eleştirmenlerden aktöre gradyan aktarımında pek emin değilim - birçok uygulamada, yakınsamasına rağmen işe yaramaması gerektiğini gördüm.
Urtans'ı

1
Bu noob sorusu için özür dilerim: Bu, aktörün eleştirme yöntemlerinde (aktörün birden fazla eşzamanlı sürekli eylem gerçekleştirebileceği yerlerde), aktörün politika işlevine sahip olduğu ve politika gradyanı yöntemi ile eğitildiği yerde nasıl uygulanır? @JadenTravnik Cevabı yeni bir başlık altında açıklayabilir misiniz?
Gokul NC
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.