Politika dışı ve politika dışı öğrenme arasındaki fark nedir?

78

Yapay zeka web sitesi politika dışı ve politika dışı öğrenmeyi şu şekilde tanımlamaktadır:

"Politika dışı bir öğrenci, aracı kurumun eylemlerinden bağımsız olarak en uygun politikanın değerini öğrenir. Q-öğrenme, politika dışı bir öğrencidir. Politikaya dayalı bir öğrenci, araştırma adımları dahil olmak üzere, aracı tarafından yürütülen politikanın değerini öğrenir ."

Bu konudaki açıklığınızı sormak istiyorum, çünkü onlar benim için bir fark yaratmıyor gibi görünüyor. Her iki tanım da aynı gibi görünüyor. Aslında anladığım modelsiz ve model tabanlı öğrenme ve söz konusu olanlarla bir ilgisi olup olmadığını bilmiyorum.

Optimum politikanın ajanın faaliyetlerinden bağımsız olarak öğrenilmesi nasıl mümkün olabilir? Temsilci eylemleri gerçekleştirdiğinde politika öğrenilmiyor mu?

machine-learning reinforcement-learning artificial-intelligence

— CGO
kaynak

1

Stackoverflow.com/questions/6848828/… 'ye bir yorum ekledim , TL; NR kısmı da bu konuda yardımcı olabilir.

— zyxue

işte iyi bir açıklama: nb4799.neu.edu/wordpress/?p=1850

— Ivan Kush

Ayrıca, SARSA'nın politika dışı bir değişkeninin olduğunu da eklemek isterim. Bu makale ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) giriş bölümündeki politika hakkında ve kapsamını gözden geçirecek ve daha sonra beklenen sarsaları açıklayacaktır. Ayrıca, iki türü kapsayan daha genel bir teori bulmak için beklenen politika gradyanlarını (EPG) araştırın.

— Josh Albert,

93

Her şeyden önce, bir ajanın açgözlü eylemde bulunmasının hiçbir nedeni yoktur ; Ajanlar keşfedebilir veya seçenekleri takip edebilir . Politikada politika dışı öğrenmeden ayıran şey bu değildir.

Q-öğrenme dışı politikası olmasının nedeni bir sonraki devlet Q-değeri kullanılarak, Q-değerlerini günceller olmasıdır $s'$ ve açgözlü eylem $a'$ . Başka bir deyişle, açgözlü bir politika izlemese de, açgözlü bir politikanın takip edildiğini varsayarsak, devlet-eylem çiftlerinin getirisini (toplam indirimli gelecek ödül) tahmin ediyor .

SARSA on-politika olmasının sebebi bir sonraki devlet Q-değeri kullanılarak, Q-değerlerini günceller olmasıdır $s'$ ve şimdiki politikanın eylem $a''$ . Mevcut politikanın izlenmeye devam ettiği varsayılarak devlet-eylem çiftlerinin getirisini tahmin ediyor.

Mevcut politika açgözlü bir politika ise ayrım ortadan kalkar. Bununla birlikte, böyle bir ajan asla araştırmayacağı için iyi olmaz.

Ücretsiz olarak çevrimiçi olan kitaba baktınız mı? Richard S. Sutton ve Andrew G. Barto. Güçlendirme öğrenme: Giriş. İkinci baskı, MIT Press, Cambridge, MA, 2018.

— Neil G
kaynak

8

güzel açıklama! Q-öğrenmeye ilişkin örneğiniz, Sutton'un kitabında, “ öğrenilen eylem-değer işlevi Q'nun, takip edilen politikadan bağımsız olarak, optimal eylem-değer işlevi olan Q * 'ya doğrudan yaklaşmasıyla daha iyi formüle edilmiştir . Algoritma analizi ve etkin yakınsama ispatlarının mümkün olduğu kanıtlar. Politika, hangi devlet-eylem çiftlerinin ziyaret edilip güncelleneceğini belirleme yönünde bir etkiye sahip. "

— Ciprian Tomoiagă

3

Genel olarak, Sutton ve Barto'yu pek okunaklı bulmuyorum. Sundukları açıklamaları pek anlaşılmaz buluyorum.

— SN

@SN Birçok güçlendirici öğrenme öğrencisi için Sutton ve Barto ilk okudukları kitaptır.

— Neil G

3

@ JakubArnold orijinal Sutton & Barto kitabı 1998’dendir ve derin takviye öğrenmeyi kapsamaz. İkinci baskı sadece AlphaGo gibi şeylerden bahseder, ancak kitabın odağı daha klasik yaklaşımlardır. Daha fazla RL kaynağı istiyorsanız, bu listeye bir göz atın . David Silver'ın videolarına ve Puterman'ın kitabına daha ulaşılabilir olduklarını düşünüyorum. Daha teorik materyal için Bertsekas'ın kitaplarını öneririm. DRL algoritmaları ve orijinal kağıtlara bağlantılar için Spinning Up web sitesine bakın.

— Douglas De Rizzo Meneghetti

1

@AlbertChen "Bu durumda, araştırmaya bağlı ya da değil": Hayır, çünkü her iki algoritma da araştırıyor. Fark, Q'nun nasıl güncellendiğidir.

— Neil G,

13

Politika içi yöntemler, kontrol için kullanırken politikanın değerini tahmin eder.

Gelen dışı politika yöntemleri, davranış oluşturmak için kullanılan ilke olarak adlandırılan davranış değerlendirilmiş ve geliştirilmiş politikaya ilgisiz olabilir, ilkesi denir tahmini politikası.

Bu ayrımın bir avantajı, tahmin politikasının belirleyici (örneğin açgözlü) olabileceği ve davranış politikasının tüm olası eylemleri örneklemeye devam edebileceğidir.

Daha fazla ayrıntı için, Takviye Öğrenim: Barto ve Sutton Tarafından Bir Giriş , kitabın 5.4 ve 5.6 bölümlerine bakınız .

— nbro
kaynak

7

Politika Dışı ve Politika Dışı yöntemler arasındaki fark, ilk önce herhangi bir özel politika izlemenize gerek kalmaması durumunda, aracınızın bile rasgele davranabilmesi ve buna rağmen politika dışı yöntemlerin hala en uygun politikayı bulabilmesidir. Öte yandan, politika üzerindeki yöntemler kullanılan politikaya bağlıdır. Politika dışı Q-Learning durumunda, keşif sırasında kullanılan politikadan bağımsız olarak en uygun politikayı bulacak, ancak bu yalnızca farklı durumları yeterince ziyaret ettiğinizde geçerlidir. Orijinal makalede Watkins ile Q-Learning'in bu çok güzel özelliğini gösteren gerçek kanıtı bulabilirsiniz . Bununla birlikte, bir takas vardır ve bu politika dışı yöntemlerin politika dışı yöntemlerden daha yavaş olma eğilimindedir. İşte diğer ilginç özeti ile bir link Her iki yöntem türünün özellikleri

— Juli
kaynak

1

Politika dışı yöntemler sadece daha yavaş değildir, aynı zamanda önyükleme ile birleştirildiğinde (yani Q-öğreniminin birbirlerinden nasıl tahminler oluşturduğunu) ve işlev belirleyicileri (örneğin sinir ağları) ile birleştirildiğinde kararsız olabilir.

— Neil Slater,

7

$\pi$
$a$ $s$ $\pi$ $a$ $s$ ).

$Q(s,a)$ $a$ $s$
$\pi$ $\pi(a|s)$

$Q(s,a)$ .

$Q(s,a)$ $\pi$
$Q(s,a)$ işlevi farklı işlemler (örneğin, rastgele eylemler) öğrenilmiştir. Hiç bir politikaya bile ihtiyacımız yok!

$Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$ $a'$ $\pi$

$Q(s,a) \leftarrow Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$ $a'$ $s'$

— Dmitry Mottl
kaynak

1

Sutton kitabından: "Bir önceki bölümdeki politika üstü yaklaşım aslında bir uzlaşmadır - en iyi politika için değil, hala araştırılan en yakın politika için eylem değerlerini öğrenir. Daha basit bir yaklaşım iki politika kullanmaktır. öğrenilen ve en uygun politika haline gelen, daha keşfedici ve davranış üretmek için kullanılan, hedef politika olarak adlandırılan ve davranış oluşturmak için kullanılan politika davranış politikası olarak adlandırılır. Bu durumda, öğrenmenin hedef politikadan “o data” verilerinden geldiğini ve genel sürecin “politikadan öğrenme” olarak adlandırıldığını söylüyoruz. ”

— Oliver Goldstein
kaynak

Eğer bu açıklamayı takip edersen, neden Q-learning'in politika dışı olduğunu söylemek kolay değil

— Albert Chen