Yalancı rasgele dizi tahmini

Feragatname: Ben bir biyologum, bu tür kaba terimlerle ifade edilen temel soru için (belki de) çok üzgünüm.

Bu soruyu burada mı yoksa DS / SC'de mi sormam gerektiğinden emin değilim, ancak CS üçün en büyüğü, işte gidiyor. (Gönderdikten sonra, Cross-Valideted'in bunun için daha iyi bir yer olabileceği, ancak ne yazık ki) olduğu ortaya çıktı.

İkili kararlar veren bir ajan olduğunu düşünün. Ayrıca, temsilcinin her bir kararı için ("denemeler") ya aracı ödüllendiren ya da ödüllendirmeyen bir ortam. Acentenin kararlarını ödüllendirme kriterleri basit değildir. Genel kriterler rastgeledir, ancak sınırlamaları vardır, örneğin, çevre aynı karar için asla 3 kattan fazla ödül vermez ve ödüllendirilmiş kararı hiçbir zaman arka arkaya 4 defadan fazla değiştirmez.

Kriter sıralaması şöyle görünebilir

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

ama asla

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

çünkü ödül kriteri 3 kereden fazla tekrarlanamaz.

Bu koşullarda, ödülü en üst düzeye çıkarmak için ideal gözlemcinin üstlenmesi gereken stratejiyi formüle etmek oldukça kolaydır. Çizgisinde bir şey

rastgele karar ver
Eğer bu kriterleri 3 kez tekrarlarsanız - son kritere göre ters karar verin
Eğer kriterlerin 4 kez değiştiğini tespit ederseniz, son kritere göre karar verin

Şimdi, zor kısmı. Şimdi her bir denemeye ilişkin kriter sadece önceki kriterlerin geçmişine değil, aynı zamanda temsilci kararlarının geçmişine de bağlıdır; örneğin, temsilci son 10 denemenin 8'inden fazlasını değiştiriyorsa, son kez verilen temsilci ile aynı kararı ( eğer ajan alternatifi değiştirmekten vazgeçirirse) ve ajan son 10 denemenin 8'inden fazlasında aynı kararı tekrarladıysa, yani önyargılıysa, önyargının tersine bir kriter yapın. Kriterlerin tarihinin kararların tarihine göre önceliği önceden belirtilmiştir, bu nedenle hiçbir zaman belirsizlik yoktur.

(D) ve kriter (c) dizileri artık şöyle görünebilir

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

Temsilci için maksimize etme stratejisini icat etmenin basit bir yolunu görmüyorum. Ama eminim bir tane olmalı ve bir tür akıllı makine öğrenme algoritması onu tanımlayabilmelidir.

Sorum bu sorunun nasıl çözüleceği ile ilgili çok fazla değil (bir çözüm önerirseniz mutlu olurum), ancak bu tür sorunların nasıl çağrıldığı? Nerede okuyabilirim? Soyut bir çözüm var mı yoksa sadece simülasyon yardımcı olabilir mi? Genel olarak, bir biyolog olarak bu tür bir soruna nasıl yaklaşabilirim?

machine-learning probability-theory

— Sergey Antopolskiy
kaynak

bkz . otoregresif zaman serisi analizi . giriş verileri hakkında daha ayrıntılı olsaydınız yardımcı olabilirdi. biyolojiden mi? std problemleri için std teknikleri vardır. tekrarlayan YSA'lar (yapay sinir ağları) da bunu halleder. Ayrıca Bilgisayar Bilim Sohbet

— vzn

Gizli Markov modelleri faydalı bir araç olabilir.

— Raphael

Follow-The-Leader ve diğer varyantları okumak isteyebilirsiniz - onlineprediction.net/?n=Main.FollowTheLeader

— MotiN

Sanırım bahsettiğiniz şey ML'deki insanların Takviye Öğrenme dediği şeye yakın .

— Kaveh

ps: Bir süre sonra burada cevap alamazsanız Cross Validated'da yayın göndermeyi deneyebilirsiniz .

— Kaveh

Takviye Öğrenimini kullanarak bu soruna yaklaşabilirsiniz.

Bunun için klasik bir kitap Sutton ve Barto:

İkinci baskının taslağı ücretsiz olarak kullanılabilir: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Sorununuzu Markovian yapmak için, her durumu son on kararın bir vektörü olarak tanımlayın. İşlemleriniz 1 veya 0 olacaktır.

— Juan Leni
kaynak