Sabit olmayan ortamda güçlendirme öğrenme [kapalı]


9

S1: Genel olarak Takviye öğreniminde sabit olmayan ortamla başa çıkmak için ortak veya kabul edilmiş yöntemler var mı?

S2: Izgara dünyamda, bir eyalet ziyaret edildiğinde ödül işlevim değişiyor. Her bölüm ödüller başlangıç ​​durumuna sıfırlanır. Temsilcimin öğrenmesini istediğim tek şey "Gerçekten gerekmedikçe geri dönmeyin", ancak bu ortamı sabit hale getirir. Bu çok basit kural MDP modeline dahil edilebilir mi / uygulanmalı mı ve nasıl? Q-learning bu sorunla başa çıkmak için en iyi çözüm müdür? Herhangi bir öneri veya örnek var mı?

S3: Q-öğrenmeyi, sürekli olmayan ortamlarla başa çıkmanın ardışık güncellemelerle ilgili bir çözüm olarak bir çözüm olarak deneyim tekrarıyla araştırıyorum. Bu yöntemin doğru kullanımı mı yoksa öğrenmeyi daha fazla veri verimli hale getirmekle mi ilgili? Ve sadece değer yaklaşımı ile kullanıldığını gördüm. Bunu gridworld gibi basit bir ayrık durum alanı için kullanmanın aşırı bir silah olup olmadığından emin değilim veya bunun farklı bir nedeni var.

Tüm soruları yanıtlayamasanız bile lütfen yanıtlamaktan veya yorum yapmaktan çekinmeyin.

Yanıtlar:


10

S1: Genel olarak Takviye öğreniminde sabit olmayan ortamla başa çıkmak için ortak veya kabul edilmiş yöntemler var mı?

Çoğu temel RL aracısı çevrimiçi ve çevrimiçi öğrenme genellikle sabit olmayan sorunlarla başa çıkabilir. Buna ek olarak, kontrol problemlerindeki durum değeri ve eylem değeri tahmin edicileri için güncelleme kuralları genellikle sabit olmayan hedefler için yazılır, çünkü politika iyileştikçe hedefler zaten değişir. Bu karmaşık bir şey değil, sadece bir öğrenme oranının kullanılmasıα değerleri tahmin ederken güncellemelerde, tüm tarihin ağırlıksız bir şekilde ortalamasının aksine, hareketli bir geometrik ortalama.

Bununla birlikte , bölümler arasında değişen sorun veya daha da uzun bir zaman ölçeği gibi daha uzun süreli durağan olmama durumu ele alınmaktadır. Açıklamanız, ödül yapısını kısa bir zaman ölçeğinde gerçekleştirdiği eylemlere göre değiştirmek istediğiniz gibi görünüyor. Bu eylemlere verilen dinamik yanıt, daha basit bir MDP içinde "durağanlık" olarak değil, daha karmaşık bir MDP olarak daha iyi çerçevelenir.

Bir temsilci, henüz örneklemediği ortamdaki değişiklikleri öğrenemez, bu nedenle ödül yapısının değiştirilmesi, temsilcinin daha önce ziyaret edilen ülkelere dönmesini engellemez. Temsilcide RNN gibi bir şey kullanmadığınız sürece, temsilci, geçerli durumda temsil edilenin dışında bölümde daha önce olanların "belleğine" sahip olmayacaktır (tartışmasız bir RNN kullanmak RNN ​​parçasının gizli katmanını yapar devlet). Birden fazla bölümde, tablo halinde bir Q-öğrenme aracısı kullanırsanız, aracı yalnızca belirli durumların düşük değere sahip olduğunu öğrenecek, devlete ikinci veya üçüncü ziyaretlerin bu etkiye neden olduğunu öğrenemeyecektir, çünkü bu bilgiyi temsil etmenin bir yolu. Çevrimiçi ve orta bölüm öğrenmek için yeterince hızlı bir şekilde değişime ayarlanamayacak.

S2: Izgara dünyamda, bir eyalet ziyaret edildiğinde ödül işlevim değişiyor. Temsilcimin öğrenmesini istediğim tek şey "Gerçekten gerekmedikçe geri dönmeyin", ancak bu ortamı sabit hale getirir.

Temsilci öğrenmek için ihtiyacınız olan her şey buysa, belki de bu uygun bir ödül yapısı tarafından teşvik edilebilir. Bunu yapmadan önce, kendinize "gerçekten ihtiyaç duyduğu" şeyin ne olduğunu ve bunun mantıksal olarak ne kadar sıkı olması gerektiğini anlamanız gerekir. Ancak, acentenin daha önce veya yakın zamanda ziyaret ettiği herhangi bir yeri ziyaret etmek için bir miktar ceza atayarak iyi olabilirsiniz.

Bu çok basit kural MDP modeline dahil edilebilir mi / uygulanmalı mı ve nasıl?

Evet, ziyaret edilen konumlarla ilgili bilgileri eyalete eklemelisiniz. Bu, devlet modelinizi hemen basit bir ızgara dünyasından daha karmaşık hale getirecek ve sorunun boyutsallığını artıracaktır, ancak kaçınılmazdır. Gerçek dünyadaki sorunların çoğu, RL kavramlarını öğretmek için sağlanan oyuncak örneklerini çok hızlı bir şekilde aşar.

Bir alternatif, sorunu Kısmen Gözlenebilir Markov Karar Süreci (POMDP) ​​olarak çerçevelemektir . Bu durumda, "gerçek" durum, ödülleri hesaplamak için hala gerekli tüm geçmişi içerecektir (ve bu, bir bilgisayardaki oyuncak sorunu olduğundan, yine de bir şekilde temsil etmeniz gerekir), ancak ajan kısıtlı öğrenmeyi deneyebilir devletin bilgisi, gözlemlemesine izin verdiğiniz her neyse. Genel olarak bu, devlet temsilini genişletmekten çok daha zor bir yaklaşım ve bunu burada tavsiye etmem. Ancak, fikri ilginç bulursanız, sorununuzu POMDP'leri keşfetmek için kullanabilirsiniz. POMDP'leri çözmek için RNN'lerle birleştirilmiş iki RL algoritmasına bakan yeni bir makale (Google'ın Deep Mind ekibinden, 2015) .

S3: Q-öğrenmeyi, sürekli olmayan ortamlarla başa çıkmanın ardışık güncellemelerle ilgili bir çözüm olarak bir çözüm olarak deneyim tekrarıyla araştırıyorum. Bu yöntemin doğru kullanımı mı yoksa öğrenmeyi daha fazla veri verimli hale getirmekle mi ilgili?

Deneyimin yeniden oynatılması, sabit olmayan ortamlarda yardımcı olmaz. Aslında performansı daha da kötüleştirebilir. Bununla birlikte, daha önce de belirtildiği gibi, probleminiz gerçekten durağan olmayan bir çevre değil, daha karmaşık devlet dinamiklerini ele almakla ilgilidir.

Ne olabilir yapmanız gereken fonksiyon yakınsama içine bakmak, eğer yeterince büyük bir sayıya devletler sayısı artıyor. Örneğin, herhangi bir geri izlemeyi işlemek ve ziyaret edilen her konumu izleyen karmaşık bir ödül değiştirme kuralınız varsa, durumunuz tek bir konum numarasından ziyaret edilen yerleri gösteren bir haritaya dönüşebilir. Örneğin,64 için bir 8x8 ızgara dünya 264devlet harita ziyaret kareler gösteriliyor. Bu, bir değer tablosunda izlenemeyecek kadar yüksektir, bu nedenle durum değerlerini tahmin etmek için genellikle bir nöral ağ (veya evrişimli bir sinir ağı) kullanırsınız.

Bir işlev tahmincisi ile deneyim tekrarlaması çok yararlıdır, çünkü onsuz öğrenme süreci kararsızdır. Atari oyunlarını oynamak için son DQN yaklaşımı bu nedenle deneyim tekrarını kullanıyor.


Eğer ortam sabit değilse, o zaman şebeke dünyası örneğinde, t = 1 durumundaki durumun t = 2 durumundaki durumla aynı olmadığı gerçeğiyle nasıl başa çıkıyorsunuz? Onlara ayrı devletler olarak davranırsanız, devlet alanınızın boyutsallığı patlayacak mı?
tryingtolearn

@tryingtolearn: Bir Markov durumunun tüm amacı, MDP'nin bu noktadan nasıl ilerleyeceği ile ilgili tüm önemli detayları yakalamasıdır. Tipik olarak, t = 1'de durumun olması, beklenen gelecek ödül ve durum geçişleri açısından t = 2'de aynı durumda olmaktan farklı değildir . Eğer t'nin değerine dayanan kurallarla sarılırsanız, t'yi devlete koyarsınız. Bu, herhangi bir zaman adımında ödül kazanabiliyorsanız olabilir, ancak zaman adımlarının sayısı sınırlıdır - bölüm her zaman örneğin t = 10 ile biter. Bu durumda kalan zamanınızı bilmek önemli olabilir
Neil Slater

@NeilSlater cevabınızdaki POMDP ve RNN fikirlerini genişletebilir misiniz? Kulağa ilginç geliyor. Ve mümkünse, uygun kaynaklar verin, çünkü bazen literatürde gezinmek zordur. Ben şimdiye kadar düşünebildiğim tek şey olmasına rağmen, ziyaret edilen devletlerin sırasını tutma fikrini gerçekten sevmiyorum, bu yüzden başka seçenekler arıyorum. Çok basit bir kural getirmem gerektiğinden, model bu şekilde aşırı karmaşık hale geliyor. Çok açık bir şey eksik olup olmadığımdan emin değilim ya da sadece doğru modeli ve formülasyonu kullanmıyorum.
Voltronika

@NeilSlater İlke-gradyan yöntemleri gibi şeyleri kullanarak bu işe yaramaz mı? Uygulamada, bu tür problemleri çözmenin standardının ne olduğunu biliyor musunuz ?
tryingtolearn

1
@ Voltronika POMDP'ler hakkında bir paragraf ekleyerek cevabı genişlettim. Sorununuzu bir POMDP olarak çerçevelemenin, durumu ziyaret edilen konumların uygun belleğini içerecek şekilde genişletmekten daha çok çalışmayı ve çözmeyi zorlaştırdığını unutmayın. Bu yüzden sadece POMDP'leri incelemek bir hedefse bunu incelemenizi öneririm.
Neil Slater

0

S1: Q öğrenme, sabit ortamla iyi çalışan bir çevrimiçi takviye öğrenme algoritmasıdır. Modelin (ödül fonksiyonu ve geçiş olasılıkları) hızlı değişmemesi koşulu ile sabit olmayan bir modelle de kullanılabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.