Programlama markov-models

Değer yinelemesi ile ilke yinelemesi arasındaki fark nedir?

Pekiştirmeli öğrenmede, politika yinelemesi ile değer yinelemesi arasındaki fark nedir? Anladığım kadarıyla, değer yinelemesinde, en uygun politikayı çözmek için Bellman denklemini kullanıyorsunuz, oysa politika yinelemesinde rastgele bir politika seçiyorsunuz ve bu politikanın ödülünü buluyorsunuz. Şüphem şu ki, PI'da rastgele bir politika seçiyorsanız, birkaç rastgele politika seçiyor olsak bile, en uygun …

94 machine-learning reinforcement-learning markov-models value-iteration

«markov-models» etiketlenmiş sorular