Yapay zeka web sitesi politika dışı ve politika dışı öğrenmeyi şu şekilde tanımlamaktadır:
"Politika dışı bir öğrenci, aracı kurumun eylemlerinden bağımsız olarak en uygun politikanın değerini öğrenir. Q-öğrenme, politika dışı bir öğrencidir. Politikaya dayalı bir öğrenci, araştırma adımları dahil olmak üzere, aracı tarafından yürütülen politikanın değerini öğrenir ."
Bu konudaki açıklığınızı sormak istiyorum, çünkü onlar benim için bir fark yaratmıyor gibi görünüyor. Her iki tanım da aynı gibi görünüyor. Aslında anladığım modelsiz ve model tabanlı öğrenme ve söz konusu olanlarla bir ilgisi olup olmadığını bilmiyorum.
Optimum politikanın ajanın faaliyetlerinden bağımsız olarak öğrenilmesi nasıl mümkün olabilir? Temsilci eylemleri gerçekleştirdiğinde politika öğrenilmiyor mu?