TL; DR.
İskonto oranının 1'den küçük olması sınırlandırılmış olması, sonsuz bir toplam sonlu yapmak için matematiksel bir püf noktasıdır. Bu, belirli algoritmaların yakınsamasını kanıtlamaya yardımcı olur.
Uygulamada, indirim faktörü, karar vericinin bir sonraki karar anında dünyanın (örneğin, çevre / oyun / süreç ) bitip bitmeyeceği konusunda kararsız olduğu gerçeğini modellemek için kullanılabilir .
Örneğin:
Karar vericinin bir robot olması durumunda, indirim faktörü, bir sonraki seferde robotun kapatılma olasılığı olabilir (dünya önceki terminolojide sona erer). Robotun kısa görüşlü olmasının ve toplam ödülü optimize etmemesinin, indirimli toplam ödülü vermesinin nedeni budur
.
İskonto faktörü 1'den küçük (Detaylı)
Daha kesin bir şekilde cevap verebilmek için, iskonto oranının neden birden az olması gerektiğine dair ilk önce Markov Karar Süreçlerini (MDP) tanıtacağım.
MDP'lerin çözümünde takviye öğrenme teknikleri kullanılabilir. Bir MDP, sonuçların kısmen rastgele ve kısmen karar vericinin kontrolü altında olduğu karar verme durumlarını modellemek için matematiksel bir çerçeve sağlar. Bir MDP, bir durum alanı , bir eylem alanı , durumlar arasındaki geçiş olasılıklarının bir fonksiyonu (karar vericinin aldığı eyleme göre şartlandırılmış) ve bir ödül fonksiyonu ile tanımlanır.SA
Karar vericiyi temel düzenlemede harekete geçirir, çevreden ödüllendirir ve çevre durumunu değiştirir. Sonra karar verici, çevrenin durumunu algılar, harekete geçer, ödül alır, vb. Devlet geçişleri muhtemeldir ve yalnızca fiili duruma ve karar vericinin aldığı eyleme bağlıdır. Karar vericinin elde ettiği ödül, atılan eyleme ve hem çevrenin hem de orijinal durumuna bağlıdır.
Bir ödül harekete geçerken elde edilir durum içinde ve devlet için çevre / sistem değişiklikleri karar verici aksiyon aldıktan sonra . Karar makinesi, bir ilke aşağıdaki , her durum için alan bir işlem . Böylece politika, karar vericiye her eyalette hangi eylemleri gerçekleştireceğini söyler. Politika de randomize olabilir, fakat şimdilik önemli değil.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
Amaç bir politika bulmaktır böyleπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
burada , indirim faktörü ve .ββ<1
Yukarıdaki optimizasyon probleminin sonsuz zaman ufkuna ( ) sahip olduğunu ve amacın miktarını en üst düzeye çıkarmak olduğunu unutmayın (ödül ile çarpılır ). Bu genellikle sonsuz ufukta indirimli ödül kriterleri olan bir MDP problemi olarak adlandırılır .T→∞discountedRβn
Soruna iskonto denir, çünkü . İndirimli bir sorun olmasaydı , toplam yakınsamayacaktır. Her seferinde ortalama olarak pozitif bir ödül alan tüm politikalar sonsuzluğa eşittir. Bu, sonsuz bir ufuk toplamı ödül kriteri olacaktır ve iyi bir optimizasyon kriteri değildir.β<1β=1
İşte size ne demek istediğimi göstermek için bir oyuncak örneği:
İki olası işlem vardır varsayalım ve ödül işlevi bu eşittir ise ve ise (ödül durumuna bağlı değildir).a=0,1R1a=10a=0
Daha fazla ödül alan politikanın her zaman eylemini ve asla eylemini gerçekleştirmemesi gerektiği açıktır . Bu politikayı arayacağım . Ben karşılaştırmak edeceğiz Başka politika için eylem sürer küçük olasılık ile ve eylem , aksi takdirde.a=1a=0π∗π∗π′a=1α<<1a=0
Sonsuz ufukta, indirimli ödül kriterleri denklemi (1) ilke için (geometrik bir dizinin toplamı) olurken, ilke denklemi (1) olur . Yana , biz söylemek daha iyi bir politikadır . Aslında en uygun politikadır.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
Sonsuz ufukta toplam ödül kriterleri ( ) denklemi (1) herhangi bir politika için birleşmez (sonsuza kadar toplanır). Dolayısıyla politika , den daha yüksek ödüller her iki politika da bu kriterlere göre eşittir. Sonsuz ufuk toplamı ödüllendirme kriterlerinin faydalı olmamalarının bir nedeni budur.β=1ππ′
Daha önce de bahsettiğim gibi, toplamı denklem (1) 'de bir araya getirme hilesini yapar.β<1
Diğer optimallik kriterleri
empoze etmeyen başka optimallik kriterleri var :β<1
Sonlu ufuk kriterleri bu durumda, amaç, indirimli ödülü, zamanına kadar en üst düzeye çıkarmaktırT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
için ve sonlu.β≤1T
Olarak sonsuz ufuk ortalama ödül kriterleri amacı
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Notu sonlandır
Optimallik kriterlerine bağlı olarak, en uygun politikayı bulmak için farklı bir algoritma kullanılır. Örnekler için sonlu ufuk problemlerinin optimal politikaları hem duruma hem de gerçek zamana bağlı olacaktır. Çoğu Takviye Öğrenmesi algoritması (SARSA veya Q-learning gibi), yalnızca indirimli ödül sonsuz ufku kriterleri için en uygun politikaya yaklaşır (aynı Dinamik programlama algoritmaları için de geçerlidir). Ortalama ödül kriterleri için en uygun politikaya yaklaştığı gösterilmiş bir algoritma yoktur, ancak iyi bir teorik yakınsama olmasa da iyi performans gösteren R-öğrenme kullanılabilir.