Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır.
Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm:
nerede ödüllerin avantajı, ile karakterize edilir ve buradaki Sarkaç ortamında olduğu gibi sinir ağından çıkıyor: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py .
Sorun şu ki, politika gradyanlarını (gradyanı Q işlevinden aktararak farklı bir yaklaşım kullanan aktör-eleştirel yöntemler değil) kullanarak 2+ sürekli eylem hakkında herhangi bir makale bulamıyorum.
Bunu LunarLander ortamında 2 sürekli eylem için TRPO kullanarak nasıl yapacağınızı biliyor musunuz ?
Aşağıdaki yaklaşım ilke gradyan kaybı işlevi için doğru mu?