Hiyerarşik pekiştirme öğrenme problemleri üzerinde çalışıyorum ve birçok makale bir politikayı öğrenmek için algoritmalar önerirken, hepsi de etki alanındaki eylemlerin hiyerarşisini tanımlayan bir grafik yapısını önceden bildiklerini varsayıyorlar. Örneğin, Dietterich'in Hiyerarşik Takviye Öğrenmesi için MAXQ Yöntemi, basit bir Taksi alanı için bir eylemler ve alt görevler grafiğini tanımlar, ancak bu grafiğin nasıl keşfedildiğini açıklamaz. Sadece politika değil, bu grafiğin hiyerarşisini nasıl öğrenirsiniz?
Başka bir deyişle, makalenin örneğini kullanarak, bir Taksi amaçsızca dolaşıyorsa, dünya hakkında çok az bilgiye sahipse ve sadece ilkel hareket sola / sağa hareket et vb. go-pick-up-yolcu? Makaleyi doğru bir şekilde anlıyorsam (ve olmayabilirim), bu üst düzey eylemler için politikanın nasıl güncelleneceğini önerir, ancak başlangıçta nasıl oluşturulduklarını değil.