«trpo» etiketlenmiş sorular

1
Birden fazla sürekli eylem durumunda politika gradyanları nasıl uygulanabilir?
Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır. Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm: L ( θ ) = günlük( P(bir1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, nerede birAA ödüllerin avantajı, …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.