Güçlendirme öğreniminde indirim faktörünün rolünü anlama


43

Kendimi takviye öğrenmeyi öğretiyorum ve indirimli ödül kavramını anlamaya çalışıyorum. Bu nedenle, sisteme hangi devlet-eylem çiftlerinin iyi, hangilerinin kötü olduğunu söylemek için ödül gereklidir. Fakat anlamadığım, neden indirimli ödülün gerekli olduğudur. Niçin iyi bir duruma, daha sonra değil, kısa sürede ulaşılması önemli olsun?

Bunun bazı özel durumlarda konuyla ilgili olduğunu biliyorum. Örneğin, borsada işlem yapmak için pekiştirici öğrenmeyi kullanıyorsanız, daha sonra değil, er ya da erken kar elde etmek daha faydalı olur. Bunun nedeni, şu anda bu paraya sahip olmanın, o parayla bir şeyler yapmanıza izin vermesidir; bu, daha sonra o parayla bir şeyler yapmaktan daha arzu edilir.

Ancak çoğu durumda indirimin neden faydalı olduğunu anlamıyorum. Örneğin, bir robotun diğer tarafa ulaşmak için bir odanın içinde nasıl gezineceğini, bir engelle çarpışması durumunda ceza alacağı yerleri öğrenmek istediğinizi varsayalım. İskonto faktörü olmasaydı, herhangi bir engelle çarpışmadan diğer tarafa mükemmel şekilde ulaşmayı öğrenirdi. Oraya gitmesi uzun zaman alabilir ama sonunda oraya varacak.

Ancak, ödül için bir indirim yaparsak, robot yol boyunca nesnelerle çarpışması gerekse bile odanın diğer tarafına hızlı bir şekilde ulaşması teşvik edilecektir. Bu açıkça istenen bir sonuç değildir. Elbette, robotun diğer tarafa hızlı bir şekilde ulaşmasını istersiniz ancak bu, yol boyunca cisimlerle çarpışması gerektiği anlamına gelmiyorsa.

Bu yüzden benim sezgim, herhangi bir indirim faktörü biçiminin aslında en düşük düzeyde bir çözüme yol açacağı yönünde. Ve iskonto faktörü seçimi genellikle keyfi gözüküyor - gördüğüm birçok yöntem basitçe onu 0.9 olarak ayarladı. Bu benim için çok saf görünüyor ve optimum çözüm ile en hızlı çözüm arasında keyfi bir takas veriyor gibi görünüyor, oysa gerçekte bu takas çok önemli.

Lütfen birileri tüm bunları anlamama yardımcı olabilir mi? Teşekkür ederim :)

Yanıtlar:


36

TL; DR.

İskonto oranının 1'den küçük olması sınırlandırılmış olması, sonsuz bir toplam sonlu yapmak için matematiksel bir püf noktasıdır. Bu, belirli algoritmaların yakınsamasını kanıtlamaya yardımcı olur.

Uygulamada, indirim faktörü, karar vericinin bir sonraki karar anında dünyanın (örneğin, çevre / oyun / süreç ) bitip bitmeyeceği konusunda kararsız olduğu gerçeğini modellemek için kullanılabilir .

Örneğin:

Karar vericinin bir robot olması durumunda, indirim faktörü, bir sonraki seferde robotun kapatılma olasılığı olabilir (dünya önceki terminolojide sona erer). Robotun kısa görüşlü olmasının ve toplam ödülü optimize etmemesinin, indirimli toplam ödülü vermesinin nedeni budur .

İskonto faktörü 1'den küçük (Detaylı)

Daha kesin bir şekilde cevap verebilmek için, iskonto oranının neden birden az olması gerektiğine dair ilk önce Markov Karar Süreçlerini (MDP) tanıtacağım.

MDP'lerin çözümünde takviye öğrenme teknikleri kullanılabilir. Bir MDP, sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu karar verme durumlarını modellemek için matematiksel bir çerçeve sağlar. Bir MDP, bir durum alanı , bir eylem alanı , durumlar arasındaki geçiş olasılıklarının bir fonksiyonu (karar vericinin aldığı eyleme göre şartlandırılmış) ve bir ödül fonksiyonu ile tanımlanır.SA

Karar vericiyi temel düzenlemede harekete geçirir, çevreden ödüllendirir ve çevre durumunu değiştirir. Sonra karar verici, çevrenin durumunu algılar, harekete geçer, ödül alır, vb. Devlet geçişleri muhtemeldir ve yalnızca fiili duruma ve karar vericinin aldığı eyleme bağlıdır. Karar vericinin elde ettiği ödül, atılan eyleme ve hem çevrenin hem de orijinal durumuna bağlıdır.

Bir ödül harekete geçerken elde edilir durum içinde ve devlet için çevre / sistem değişiklikleri karar verici aksiyon aldıktan sonra . Karar makinesi, bir ilke aşağıdaki , her durum için alan bir işlem . Böylece politika, karar vericiye her eyalette hangi eylemleri gerçekleştireceğini söyler. Politika de randomize olabilir, fakat şimdilik önemli değil.Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

Amaç bir politika bulmaktır böyleπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
burada , indirim faktörü ve .ββ<1

Yukarıdaki optimizasyon probleminin sonsuz zaman ufkuna ( ) sahip olduğunu ve amacın miktarını en üst düzeye çıkarmak olduğunu unutmayın (ödül ile çarpılır ). Bu genellikle sonsuz ufukta indirimli ödül kriterleri olan bir MDP problemi olarak adlandırılır .TdiscountedRβn

Soruna iskonto denir, çünkü . İndirimli bir sorun olmasaydı , toplam yakınsamayacaktır. Her seferinde ortalama olarak pozitif bir ödül alan tüm politikalar sonsuzluğa eşittir. Bu, sonsuz bir ufuk toplamı ödül kriteri olacaktır ve iyi bir optimizasyon kriteri değildir.β<1β=1

İşte size ne demek istediğimi göstermek için bir oyuncak örneği:

İki olası işlem vardır varsayalım ve ödül işlevi bu eşittir ise ve ise (ödül durumuna bağlı değildir).a=0,1R1a=10a=0

Daha fazla ödül alan politikanın her zaman eylemini ve asla eylemini gerçekleştirmemesi gerektiği açıktır . Bu politikayı arayacağım . Ben karşılaştırmak edeceğiz Başka politika için eylem sürer küçük olasılık ile ve eylem , aksi takdirde.a=1a=0πππa=1α<<1a=0

Sonsuz ufukta, indirimli ödül kriterleri denklemi (1) ilke için (geometrik bir dizinin toplamı) olurken, ilke denklemi (1) olur . Yana , biz söylemek daha iyi bir politikadır . Aslında en uygun politikadır.11βππα1β11β>α1βπππ

Sonsuz ufukta toplam ödül kriterleri ( ) denklemi (1) herhangi bir politika için birleşmez (sonsuza kadar toplanır). Dolayısıyla politika , den daha yüksek ödüller her iki politika da bu kriterlere göre eşittir. Sonsuz ufuk toplamı ödüllendirme kriterlerinin faydalı olmamalarının bir nedeni budur.β=1ππ

Daha önce de bahsettiğim gibi, toplamı denklem (1) 'de bir araya getirme hilesini yapar.β<1

Diğer optimallik kriterleri

empoze etmeyen başka optimallik kriterleri var :β<1

Sonlu ufuk kriterleri bu durumda, amaç, indirimli ödülü, zamanına kadar en üst düzeye çıkarmaktırT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

için ve sonlu.β1T

Olarak sonsuz ufuk ortalama ödül kriterleri amacı

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

Notu sonlandır

Optimallik kriterlerine bağlı olarak, en uygun politikayı bulmak için farklı bir algoritma kullanılır. Örnekler için sonlu ufuk problemlerinin optimal politikaları hem duruma hem de gerçek zamana bağlı olacaktır. Çoğu Takviye Öğrenmesi algoritması (SARSA veya Q-learning gibi), yalnızca indirimli ödül sonsuz ufku kriterleri için en uygun politikaya yaklaşır (aynı Dinamik programlama algoritmaları için de geçerlidir). Ortalama ödül kriterleri için en uygun politikaya yaklaştığı gösterilmiş bir algoritma yoktur, ancak iyi bir teorik yakınsama olmasa da iyi performans gösteren R-öğrenme kullanılabilir.


1
Cevabınızdaki tüm çinceleri anlamak için neleri okumam gerektiğine dair bir fikriniz var mı?
thibaut noah

@thibautnoah Bu IMHO'nun en iyi referansı Güçlendirici Öğrenme: Sutton ve Barto'dan bir giriş. [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

teşekkürler dostum, muhtemelen matematikle ilgili başka bir kitaba ihtiyaç duyacağım ama sanırım bir başlangıç;)
thibaut noah

6

Sen (sözde indirim faktörü olduğunu yaptıkları anda - Bu farklı olduğunu not TD- dan ) bir "hayat aciliyet" gibi davranır ve bu nedenle sorunun bir parçası - bu olduğu gibi insan yaşamları: Bazı insanlar sonsuza dek yaşayacak gibi yaşar; bazı insanlar yarın ölecekmiş gibi yaşıyor.γλλ


1

TL; DR: İndirim faktörleri zaman ufku ile ilişkilendirilir. Daha uzun süreli ufuklar, daha fazla alakasız bilgi içerdiklerinden çok daha fazla değişkenliğe sahipken, kısa süreli ufuklar yalnızca kısa vadeli kazanımlara karşı önyargılıdır .

İskonto faktörü, temel olarak, takviye öğrenen ajanların yakın gelecekte kazandıklarına ne kadar yakın zamanda önem verdiklerini belirler. Eğer , ajan tamamen miyop olması ve sadece acil ödül üretmek eylemler hakkında bilgi sahibi olacaktır. Eğer , ajan geleceği ödüllerin her toplamı dayalı işlemlerin her birini değerlendirecektir.γ=0γ=1

Öyleyse neden her zaman mümkün olduğu kadar yüksek yapmak istemiyorsunuz ? Eh, çoğu eylemlerin uzun süreli yan etkileri yoktur. Örneğin, her ayın ilk gününde kendinizi bir yüzlü olarak tedavi etmeye karar verdiğinizi ve bir yabanmersini yüzlü ya da çilek yüzlü elde edip etmeyeceğinize karar vermeniz gerektiğini varsayalım. İyi bir pekiştirici öğrenen olarak, kararınızın kalitesini sonraki ödüllerinizin ne kadar büyük olduğuna karar verirsiniz. Zaman ufkunuz çok kısaysa, yalnızca anında kazancınızı, güler yüzünüzün ne kadar lezzetli olduğu gibi faktörleri görürsünüz. Daha uzun bir zaman ufku ile, birkaç saat gibi, mide bulantısı hissetmediğiniz gibi olabileceğini de hesaba katabilirsiniz. Senin zaman ufku tüm ay süren Ama eğer kılan her şey için iyi veya kötü hissetmek tüm ayγDoğru smoothie kararını verip vermediğiniz konusunda kararınızı etkileyecektir. Pek çok alakasız bilgi için faktoring yapacaksınız ve bu nedenle kararınızın çok büyük bir farkı olacak ve öğrenmesi zor olacak.

Belirli bir değerini seçmek, zaman ufkunu seçmeye eşdeğerdir. Bu bir ajan indirimli ödül yeniden yardımcı olarak ı tanımlamak ve . değeri , bir indirim faktörüyle ilişkilendirilen zaman ufkunu açıkça gösterir; tekabül ve çok daha fazla olan herhangi bir ödülγG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τGelecekteki zaman adımları katlanarak bastırılır. Genellikle, zaman ufku belirli bir işlem için ilgili tüm ödülleri içerecek şekilde bir indirim faktörü seçmelisiniz, ama artık değil.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.