Bir Markovci Karar Süreci gerçekten de bir eyaletten diğerine gitmekle ilgilidir ve çoğunlukla planlama ve karar verme için kullanılır .
Teori
Teoriyi hızlı bir şekilde tekrarlamak gerekirse, bir MDP:
MDP=⟨S,A,T,R,γ⟩
SATPr(s′|s,a)Rγ
Bu nedenle, kullanmak için önceden tanımlamanız gerekir:
- Durumlar : bunlar örneğin robotikteki ızgara haritalarına veya örneğin kapı açık ve kapı kapalı anlamına gelebilir .
- Eylemler : örneğin bir robot için kuzeye, güneye, doğuya, vb. Gitmek veya bir kapıyı açmak ve kapatmak gibi sabit bir eylemler kümesi.
- Geçiş olasılıkları : bir eylem verildiğinde bir eyaletten diğerine gitme olasılığı. Eylemdir Örneğin, açık bir kapı olasılığı nedir açık . Mükemmel bir dünyada daha sonra 1,0 olabilir, ancak eğer bir robotsa, kapı kolunu doğru şekilde kullanamazdı. Hareket eden bir robot durumunda başka bir örnek, çoğu durumda onu kuzeyindeki ızgara hücresine getirecek olan kuzey eylemidir , ancak bazı durumlarda çok fazla hareket etmiş ve bir sonraki hücreye ulaşmış olabilir.
- Ödüller : bunlar planlamaya rehberlik etmek için kullanılır. Izgara örneği söz konusu olduğunda, belirli bir hücreye gitmek isteyebiliriz ve yaklaştıkça ödül daha yüksek olacaktır. Kapı örneği söz konusu olduğunda, açık bir kapı yüksek bir ödül verebilir.
MDP tanımlandıktan sonra, eyaletlerin her biri için beklenen ödülü hesaplayan Değer İterasyonu veya Politika İterasyonu yapılarak bir politika öğrenilebilir . Politika daha sonra devlet başına verir iyi yapmaya (MDP modeli verilmiş) eylemi.
Özet olarak, bir MDP, eylemlerinizin her zaman% 100 etkili olamayacağı etkili bir dizi eylem planlamak istediğinizde yararlıdır.
Sorularınız
Bir şeyi tahmin etmek için kullanılabilir mi?
Ben buna planlama diyorum, örneğin regresyon gibi bir tahmin değil .
Varsa ne tür şeyler?
Örneklere bakın .
Sonsuz miktarda veri arasında kalıp bulabilir mi?
|S|
Bu algoritma benim için ne yapabilir?
Örneklere bakın .
MDP Uygulama Örnekleri
- White, DJ (1993) geniş bir uygulama listesinden bahseder:
- Hasat: Bir nüfusun ne kadar üyesinin üreme için bırakılması gerekir.
- Tarım: hava ve toprak durumuna göre ne kadar ekilecek.
- Su kaynakları: rezervuarlarda doğru su seviyesini koruyun.
- Muayene, bakım ve onarım: yaşa, duruma vb. Göre ne zaman değiştirilir / incelenir?
- Satın alma ve üretim: talebe göre ne kadar üretileceği.
- Kuyruklar: bekleme süresini azaltır.
- ...
- Finans: Stoka ne kadar yatırım yapılacağına karar vermek.
- Robotik:
Ve oldukça fazla model var. Daha da ilginç bir model, devletlerin tamamen görünür olmadığı Kısmen Gözlenebilir Markovian Karar Süreci'dir ve bunun yerine, mevcut durum hakkında bir fikir edinmek için gözlemler kullanılır, ancak bu, bu sorunun kapsamı dışındadır.
ek bilgi
Gelecekteki durumların koşullu olasılık dağılımı sadece önceki duruma değil (yani önceki durumların listesine değil) bağlıysa, stokastik bir süreç Markovian'dır (veya Markov özelliğine sahiptir).