1
Birden fazla sürekli eylem durumunda politika gradyanları nasıl uygulanabilir?
Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır. Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm: L ( θ ) = günlük( P(bir1) ) A ,L(θ)=log(P(a1))A,L(\theta) = \log(P(a_1)) A, nerede birAA ödüllerin avantajı, …