Amaç, Tensorforce gibi bir çerçeve kullanarak, devlet tarafından yönlendirilen kurallara bağlı eylem alanı üzerinde belirli kısıtlamaları olan proksimal bir politika optimizasyon bileşeni tasarlamaktır.
Soruda Listelenen Tasarım Seçenekleri
Bu seçenekler, aşağıda ilk analizi okurken hızlı başvuru için burada listelenmiştir.
- Internal_state'e bağlı olarak her adımdaki eylem alanını değiştirin. Bunun saçmalık olduğunu düşünüyorum.
- Hiçbir şey yapmayın: modelin kullanılamayan bir eylem seçmenin hiçbir etkisi olmadığını anlamasına izin verin.
- Neredeyse hiçbir şey yapmayın: model uygun olmayan bir eylem seçtiğinde ödülü biraz olumsuz etkiler.
- Modele yardım edin: modele internal_state değeri + madde işareti noktası 2 veya 3'ü bildiren durum / gözlem alanına bir tam sayı ekleyerek
İlk Analiz
Her hareket için eylem alanını değiştirmek gerçekten mantıklı. Aslında, sorunun belirtildiği gibi normal bir temsili ve insanların normal oyun oynama şekli ve bilgisayarların Satranç ve Go'da insanları dövmesi.
Bu fikrin bariz anlamsızlığı sadece Tensorforce projesi yol haritası boyunca ilerlemenin ve her ikisi de daha büyük resimde genç olan pekiştirme teorisi boyunca kaydedilen ilerlemenin bir ürünüdür. Tensorforce belgelerini ve SSS'yi okurken, çerçevenin eylem alanını belirlemek için bir kural motoru takmak üzere tasarlandığı görülmemektedir. Bu açık kaynağın bir eksikliği değildir. Kural şartlı Markov zinciri kararları için teori veya algoritma öneren herhangi bir makale yok gibi görünüyor.
Hiçbir şey yapma seçeneği, literatürde temsil edilen mevcut stratejilere uyan seçenektir. Neredeyse hiçbir şey, muhtemelen daha güvenilir ve belki de daha çabuk arzulanan davranış üretecek olan yaklaşımdır.
Modele yardım kavramının sorunu, modeli genişletmekten daha güçlü bir fikir olmamasıdır. Açık kaynakta, bu, modeli temsil eden sınıfları genişleterek yapılacak ve kodlamadan önce bazı teorik çalışmalar gerektirecektir.
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
Öğrenme sistemlerinin kural kısıtlı vakayı kapsayacak şekilde genişletilmesi, doktora tezi için harika bir fikirdir ve birçok olası uygulamaya sahip bir proje önerisi olarak araştırma laboratuvarlarında uçabilir. Tüm adımların araştırmacıyı caydırmasına izin vermeyin. Temelde herhangi bir doktora tezi veya finanse edilen AI laboratuvar projesi için atılacak adımların bir listesidir.
Kısa vadeli bir çözüm için, modelin çalışmasına yardımcı olabilir, ancak AI'nın fikirlerini takviye öğrenme yolu boyunca ilerletmek için sağlam bir strateji değildir. Belirli bir sorunun kısa vadeli çözümü olarak işe yarayabilir. Neredeyse hiçbir şey yapma fikri daha sağlam olabilir, çünkü Tensorforce'un kullanması muhtemel belirli bir uygulamaya yol açan yakınsama kanıtlarına sığar.
Yakınsamaya yardımcı olmak için neredeyse hiçbir şey yapmadan yeniden adlandırmak, denemeden önce doğru perspektifi geliştirmeye yardımcı olabilir. Bir öğrenme hızında olduğu gibi, aşmayı önlemek için yakınsamaya yaklaşırken asistanı zayıflatmanız gerekebilir.