Hiyerarşik Güçlendirme Görevinin Yapısını Öğrenme

Hiyerarşik pekiştirme öğrenme problemleri üzerinde çalışıyorum ve birçok makale bir politikayı öğrenmek için algoritmalar önerirken, hepsi de etki alanındaki eylemlerin hiyerarşisini tanımlayan bir grafik yapısını önceden bildiklerini varsayıyorlar. Örneğin, Dietterich'in Hiyerarşik Takviye Öğrenmesi için MAXQ Yöntemi, basit bir Taksi alanı için bir eylemler ve alt görevler grafiğini tanımlar, ancak bu grafiğin nasıl keşfedildiğini açıklamaz. Sadece politika değil, bu grafiğin hiyerarşisini nasıl öğrenirsiniz?

Başka bir deyişle, makalenin örneğini kullanarak, bir Taksi amaçsızca dolaşıyorsa, dünya hakkında çok az bilgiye sahipse ve sadece ilkel hareket sola / sağa hareket et vb. go-pick-up-yolcu? Makaleyi doğru bir şekilde anlıyorsam (ve olmayabilirim), bu üst düzey eylemler için politikanın nasıl güncelleneceğini önerir, ancak başlangıçta nasıl oluşturulduklarını değil.

machine-learning

— Cerin
kaynak

Bu makaleye göre

En son teknolojide, bir RL sisteminin tasarımcısı, görevli için mevcut olan ilkel eylemler kümesine belirli bir seçenek kümesi eklemek için görevle ilgili önceden bilgi kullanır.

Ayrıca aynı makalede 6.2 Öğrenme Görevi Hiyerarşileri bölümüne bakınız.

Aklıma gelen ilk fikir, görev hiyerarşilerini bilmiyorsanız, hiyerarşik olmayan takviye öğrenme ile başlamalı ve daha sonra veya öğrenirken yapıyı keşfetmeye çalışmalısınız, yani modelinizi genelleştirmeye çalışıyorsunuz. Bana göre bu görev HMM için Bayesian model birleştirme tekniğine benziyor (örneğin, buna bakın teze )

— Alexey Kalmykov
kaynak