S1: Genel olarak Takviye öğreniminde sabit olmayan ortamla başa çıkmak için ortak veya kabul edilmiş yöntemler var mı?
Çoğu temel RL aracısı çevrimiçi ve çevrimiçi öğrenme genellikle sabit olmayan sorunlarla başa çıkabilir. Buna ek olarak, kontrol problemlerindeki durum değeri ve eylem değeri tahmin edicileri için güncelleme kuralları genellikle sabit olmayan hedefler için yazılır, çünkü politika iyileştikçe hedefler zaten değişir. Bu karmaşık bir şey değil, sadece bir öğrenme oranının kullanılmasıα değerleri tahmin ederken güncellemelerde, tüm tarihin ağırlıksız bir şekilde ortalamasının aksine, hareketli bir geometrik ortalama.
Bununla birlikte , bölümler arasında değişen sorun veya daha da uzun bir zaman ölçeği gibi daha uzun süreli durağan olmama durumu ele alınmaktadır. Açıklamanız, ödül yapısını kısa bir zaman ölçeğinde gerçekleştirdiği eylemlere göre değiştirmek istediğiniz gibi görünüyor. Bu eylemlere verilen dinamik yanıt, daha basit bir MDP içinde "durağanlık" olarak değil, daha karmaşık bir MDP olarak daha iyi çerçevelenir.
Bir temsilci, henüz örneklemediği ortamdaki değişiklikleri öğrenemez, bu nedenle ödül yapısının değiştirilmesi, temsilcinin daha önce ziyaret edilen ülkelere dönmesini engellemez. Temsilcide RNN gibi bir şey kullanmadığınız sürece, temsilci, geçerli durumda temsil edilenin dışında bölümde daha önce olanların "belleğine" sahip olmayacaktır (tartışmasız bir RNN kullanmak RNN parçasının gizli katmanını yapar devlet). Birden fazla bölümde, tablo halinde bir Q-öğrenme aracısı kullanırsanız, aracı yalnızca belirli durumların düşük değere sahip olduğunu öğrenecek, devlete ikinci veya üçüncü ziyaretlerin bu etkiye neden olduğunu öğrenemeyecektir, çünkü bu bilgiyi temsil etmenin bir yolu. Çevrimiçi ve orta bölüm öğrenmek için yeterince hızlı bir şekilde değişime ayarlanamayacak.
S2: Izgara dünyamda, bir eyalet ziyaret edildiğinde ödül işlevim değişiyor. Temsilcimin öğrenmesini istediğim tek şey "Gerçekten gerekmedikçe geri dönmeyin", ancak bu ortamı sabit hale getirir.
Temsilci öğrenmek için ihtiyacınız olan her şey buysa, belki de bu uygun bir ödül yapısı tarafından teşvik edilebilir. Bunu yapmadan önce, kendinize "gerçekten ihtiyaç duyduğu" şeyin ne olduğunu ve bunun mantıksal olarak ne kadar sıkı olması gerektiğini anlamanız gerekir. Ancak, acentenin daha önce veya yakın zamanda ziyaret ettiği herhangi bir yeri ziyaret etmek için bir miktar ceza atayarak iyi olabilirsiniz.
Bu çok basit kural MDP modeline dahil edilebilir mi / uygulanmalı mı ve nasıl?
Evet, ziyaret edilen konumlarla ilgili bilgileri eyalete eklemelisiniz. Bu, devlet modelinizi hemen basit bir ızgara dünyasından daha karmaşık hale getirecek ve sorunun boyutsallığını artıracaktır, ancak kaçınılmazdır. Gerçek dünyadaki sorunların çoğu, RL kavramlarını öğretmek için sağlanan oyuncak örneklerini çok hızlı bir şekilde aşar.
Bir alternatif, sorunu Kısmen Gözlenebilir Markov Karar Süreci (POMDP) olarak çerçevelemektir . Bu durumda, "gerçek" durum, ödülleri hesaplamak için hala gerekli tüm geçmişi içerecektir (ve bu, bir bilgisayardaki oyuncak sorunu olduğundan, yine de bir şekilde temsil etmeniz gerekir), ancak ajan kısıtlı öğrenmeyi deneyebilir devletin bilgisi, gözlemlemesine izin verdiğiniz her neyse. Genel olarak bu, devlet temsilini genişletmekten çok daha zor bir yaklaşım ve bunu burada tavsiye etmem. Ancak, fikri ilginç bulursanız, sorununuzu POMDP'leri keşfetmek için kullanabilirsiniz. POMDP'leri çözmek için RNN'lerle birleştirilmiş iki RL algoritmasına bakan yeni bir makale (Google'ın Deep Mind ekibinden, 2015) .
S3: Q-öğrenmeyi, sürekli olmayan ortamlarla başa çıkmanın ardışık güncellemelerle ilgili bir çözüm olarak bir çözüm olarak deneyim tekrarıyla araştırıyorum. Bu yöntemin doğru kullanımı mı yoksa öğrenmeyi daha fazla veri verimli hale getirmekle mi ilgili?
Deneyimin yeniden oynatılması, sabit olmayan ortamlarda yardımcı olmaz. Aslında performansı daha da kötüleştirebilir. Bununla birlikte, daha önce de belirtildiği gibi, probleminiz gerçekten durağan olmayan bir çevre değil, daha karmaşık devlet dinamiklerini ele almakla ilgilidir.
Ne olabilir yapmanız gereken fonksiyon yakınsama içine bakmak, eğer yeterince büyük bir sayıya devletler sayısı artıyor. Örneğin, herhangi bir geri izlemeyi işlemek ve ziyaret edilen her konumu izleyen karmaşık bir ödül değiştirme kuralınız varsa, durumunuz tek bir konum numarasından ziyaret edilen yerleri gösteren bir haritaya dönüşebilir. Örneğin,64 için bir 8 × 8 ızgara dünya 264devlet harita ziyaret kareler gösteriliyor. Bu, bir değer tablosunda izlenemeyecek kadar yüksektir, bu nedenle durum değerlerini tahmin etmek için genellikle bir nöral ağ (veya evrişimli bir sinir ağı) kullanırsınız.
Bir işlev tahmincisi ile deneyim tekrarlaması çok yararlıdır, çünkü onsuz öğrenme süreci kararsızdır. Atari oyunlarını oynamak için son DQN yaklaşımı bu nedenle deneyim tekrarını kullanıyor.