İşte yaz aylarında üzerinde çalıştığım çevrimiçi öğrenme / eşkıya probleminin bir özeti. Daha önce böyle bir sorun görmedim ve oldukça ilginç görünüyor. İlgili herhangi bir çalışma biliyorsanız, referansları takdir ediyorum.
Sorun Ayar çok kollu haydutlarınkidir. N kolun var. Her kol i, ödüller üzerinden oynanarak kazanılabilecek bilinmeyen fakat sabit bir olasılık dağılımına sahiptir. Kesinleştirmek için, birbirlerinin kol varsayalım i öder olasılık ile 10 $ ödül [i] p ve prob ile 0 $ ödül. 1-p [i] .
Her merminin olarak t bir set seçmek S [t] oynamak için silah. Seçtiğiniz her kol için önde 1 $ ücret ödersiniz . Seçilen her bir kol için, o kolun (bilinmeyen) ödül olasılık dağılımından alınan bir ödül toplarsınız. Tüm ödüller banka hesabınıza yatırılır ve tüm ücretler bu hesaptan düşülür. Ayrıca , her yinelemenin başında 1 $ kredi alırsınız .
Sorun, negatif olmayan bir hesap bakiyesini tutması gerektiği kısıtlamasına tabi olarak, kârı en üst düzeye çıkarmak (yani, oynatma için eksi ücretleri ödüllendirmek) için her bir yinelemede oynayacak bir silah alt kümesi seçmek için bir politika geliştirmektir. Tüm zamanlar.
Kol başına ödül dağılımlarının önceki bir dağıtımdan mı yoksa bir rakip tarafından mı seçildiğini belirtmedim. Her iki seçenek de mantıklı. Düşman formülasyon benim için daha çekici, ancak ilerleme kaydetmek muhtemelen daha zor. Burada düşman bir dağılım vektörü (D1, D2, .., DN) seçer. Dağılımlar göz önüne alındığında, bütçe açısından en uygun politika, beklenen ödülü 1 $ 'dan büyük olan tüm silahları oynamaktır. P, bu en iyi her şeyi bilen politikanın adım başına karı olsun. Çevrimiçi politikamın bu her şeyi bilen politikayla pişmanlığı (yani bir zaman penceresi T üzerinden kar kaybını) en aza indirmesini istiyorum.