Feragatname: Ben bir biyologum, bu tür kaba terimlerle ifade edilen temel soru için (belki de) çok üzgünüm.
Bu soruyu burada mı yoksa DS / SC'de mi sormam gerektiğinden emin değilim, ancak CS üçün en büyüğü, işte gidiyor. (Gönderdikten sonra, Cross-Valideted'in bunun için daha iyi bir yer olabileceği, ancak ne yazık ki) olduğu ortaya çıktı.
İkili kararlar veren bir ajan olduğunu düşünün. Ayrıca, temsilcinin her bir kararı için ("denemeler") ya aracı ödüllendiren ya da ödüllendirmeyen bir ortam. Acentenin kararlarını ödüllendirme kriterleri basit değildir. Genel kriterler rastgeledir, ancak sınırlamaları vardır, örneğin, çevre aynı karar için asla 3 kattan fazla ödül vermez ve ödüllendirilmiş kararı hiçbir zaman arka arkaya 4 defadan fazla değiştirmez.
Kriter sıralaması şöyle görünebilir
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
ama asla
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
çünkü ödül kriteri 3 kereden fazla tekrarlanamaz.
Bu koşullarda, ödülü en üst düzeye çıkarmak için ideal gözlemcinin üstlenmesi gereken stratejiyi formüle etmek oldukça kolaydır. Çizgisinde bir şey
- rastgele karar ver
- Eğer bu kriterleri 3 kez tekrarlarsanız - son kritere göre ters karar verin
- Eğer kriterlerin 4 kez değiştiğini tespit ederseniz, son kritere göre karar verin
Şimdi, zor kısmı. Şimdi her bir denemeye ilişkin kriter sadece önceki kriterlerin geçmişine değil, aynı zamanda temsilci kararlarının geçmişine de bağlıdır; örneğin, temsilci son 10 denemenin 8'inden fazlasını değiştiriyorsa, son kez verilen temsilci ile aynı kararı ( eğer ajan alternatifi değiştirmekten vazgeçirirse) ve ajan son 10 denemenin 8'inden fazlasında aynı kararı tekrarladıysa, yani önyargılıysa, önyargının tersine bir kriter yapın. Kriterlerin tarihinin kararların tarihine göre önceliği önceden belirtilmiştir, bu nedenle hiçbir zaman belirsizlik yoktur.
(D) ve kriter (c) dizileri artık şöyle görünebilir
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Temsilci için maksimize etme stratejisini icat etmenin basit bir yolunu görmüyorum. Ama eminim bir tane olmalı ve bir tür akıllı makine öğrenme algoritması onu tanımlayabilmelidir.
Sorum bu sorunun nasıl çözüleceği ile ilgili çok fazla değil (bir çözüm önerirseniz mutlu olurum), ancak bu tür sorunların nasıl çağrıldığı? Nerede okuyabilirim? Soyut bir çözüm var mı yoksa sadece simülasyon yardımcı olabilir mi? Genel olarak, bir biyolog olarak bu tür bir soruna nasıl yaklaşabilirim?