Markov Karar Süreçlerinin gerçek hayattan örnekleri

Bir sürü öğretici video izliyorum ve aynı görünüyorlar. Bu örnek: https://www.youtube.com/watch?v=ip4iSMRW5X4

İyi durumları, eylemleri ve olasılıkları açıklarlar. Kişi bunu açıklıyor ama gerçek hayatta ne için kullanılacağını anlayamıyorum. Henüz hiçbir listeye rastlamadım. En sık gördüğüm satranç.

Bir şeyi tahmin etmek için kullanılabilir mi? Varsa ne tür şeyler? Sonsuz miktarda veri içeren kalıplar bulabilir mi? Bu algoritma benim için ne yapabilir?

Bonus: Aynı zamanda MDP'lerin bir eyaletten diğerine gitmekle ilgili olduğu da hissediliyor, bu doğru mu?

markov-process

— Karl Morrison
kaynak

Bir Markovci Karar Süreci gerçekten de bir eyaletten diğerine gitmekle ilgilidir ve çoğunlukla planlama ve karar verme için kullanılır .

Teori

Teoriyi hızlı bir şekilde tekrarlamak gerekirse, bir MDP:

MDP = ⟨ S, A, T, R, γ ⟩

$\text{MDP} = \langle S,A,T,R,\gamma \rangle$

$S$ $A$ $T$ $Pr(s'|s, a)$ $R$ $\gamma$

Bu nedenle, kullanmak için önceden tanımlamanız gerekir:

Durumlar : bunlar örneğin robotikteki ızgara haritalarına veya örneğin kapı açık ve kapı kapalı anlamına gelebilir .
Eylemler : örneğin bir robot için kuzeye, güneye, doğuya, vb. Gitmek veya bir kapıyı açmak ve kapatmak gibi sabit bir eylemler kümesi.
Geçiş olasılıkları : bir eylem verildiğinde bir eyaletten diğerine gitme olasılığı. Eylemdir Örneğin, açık bir kapı olasılığı nedir açık . Mükemmel bir dünyada daha sonra 1,0 olabilir, ancak eğer bir robotsa, kapı kolunu doğru şekilde kullanamazdı. Hareket eden bir robot durumunda başka bir örnek, çoğu durumda onu kuzeyindeki ızgara hücresine getirecek olan kuzey eylemidir , ancak bazı durumlarda çok fazla hareket etmiş ve bir sonraki hücreye ulaşmış olabilir.
Ödüller : bunlar planlamaya rehberlik etmek için kullanılır. Izgara örneği söz konusu olduğunda, belirli bir hücreye gitmek isteyebiliriz ve yaklaştıkça ödül daha yüksek olacaktır. Kapı örneği söz konusu olduğunda, açık bir kapı yüksek bir ödül verebilir.

MDP tanımlandıktan sonra, eyaletlerin her biri için beklenen ödülü hesaplayan Değer İterasyonu veya Politika İterasyonu yapılarak bir politika öğrenilebilir . Politika daha sonra devlet başına verir iyi yapmaya (MDP modeli verilmiş) eylemi.

Özet olarak, bir MDP, eylemlerinizin her zaman% 100 etkili olamayacağı etkili bir dizi eylem planlamak istediğinizde yararlıdır.

Sorularınız

Bir şeyi tahmin etmek için kullanılabilir mi?

Ben buna planlama diyorum, örneğin regresyon gibi bir tahmin değil .

Varsa ne tür şeyler?

Örneklere bakın .

Sonsuz miktarda veri arasında kalıp bulabilir mi?

$|S|$

Bu algoritma benim için ne yapabilir?

Örneklere bakın .

MDP Uygulama Örnekleri

White, DJ (1993) geniş bir uygulama listesinden bahseder:
- Hasat: Bir nüfusun ne kadar üyesinin üreme için bırakılması gerekir.
- Tarım: hava ve toprak durumuna göre ne kadar ekilecek.
- Su kaynakları: rezervuarlarda doğru su seviyesini koruyun.
- Muayene, bakım ve onarım: yaşa, duruma vb. Göre ne zaman değiştirilir / incelenir?
- Satın alma ve üretim: talebe göre ne kadar üretileceği.
- Kuyruklar: bekleme süresini azaltır.
- ...
Finans: Stoka ne kadar yatırım yapılacağına karar vermek.
Robotik:
- İnsanlarla etkileşim kurmak için bir diyalog sistemi .
- Robot barmen .
- Gezinme için robot keşfi .
- ..

Ve oldukça fazla model var. Daha da ilginç bir model, devletlerin tamamen görünür olmadığı Kısmen Gözlenebilir Markovian Karar Süreci'dir ve bunun yerine, mevcut durum hakkında bir fikir edinmek için gözlemler kullanılır, ancak bu, bu sorunun kapsamı dışındadır.

ek bilgi

Gelecekteki durumların koşullu olasılık dağılımı sadece önceki duruma değil (yani önceki durumların listesine değil) bağlıysa, stokastik bir süreç Markovian'dır (veya Markov özelliğine sahiptir).

— bir altın
kaynak

Bu muhtemelen Cross Validated'da gördüğüm en açık cevap.

— Gizli Markov Modeli

Bağlantıları düzeltmek için herhangi bir şans? Bazıları kırık veya modası geçmiş görünüyor.

— ComputerScientist

Yani olan herhangi süreç states, actions, transition probabilitiesve rewardsMarkoviyen olarak adlandırılan olacağını tanımlanan?

— Suhail Gupta