Warren Buffett Sorunu


19

İşte yaz aylarında üzerinde çalıştığım çevrimiçi öğrenme / eşkıya probleminin bir özeti. Daha önce böyle bir sorun görmedim ve oldukça ilginç görünüyor. İlgili herhangi bir çalışma biliyorsanız, referansları takdir ediyorum.

Sorun Ayar çok kollu haydutlarınkidir. N kolun var. Her kol i, ödüller üzerinden oynanarak kazanılabilecek bilinmeyen fakat sabit bir olasılık dağılımına sahiptir. Kesinleştirmek için, birbirlerinin kol varsayalım i öder olasılık ile 10 $ ödül [i] p ve prob ile 0 $ ödül. 1-p [i] .

Her merminin olarak t bir set seçmek S [t] oynamak için silah. Seçtiğiniz her kol için önde 1 $ ücret ödersiniz . Seçilen her bir kol için, o kolun (bilinmeyen) ödül olasılık dağılımından alınan bir ödül toplarsınız. Tüm ödüller banka hesabınıza yatırılır ve tüm ücretler bu hesaptan düşülür. Ayrıca , her yinelemenin başında 1 $ kredi alırsınız .

Sorun, negatif olmayan bir hesap bakiyesini tutması gerektiği kısıtlamasına tabi olarak, kârı en üst düzeye çıkarmak (yani, oynatma için eksi ücretleri ödüllendirmek) için her bir yinelemede oynayacak bir silah alt kümesi seçmek için bir politika geliştirmektir. Tüm zamanlar.

Kol başına ödül dağılımlarının önceki bir dağıtımdan mı yoksa bir rakip tarafından mı seçildiğini belirtmedim. Her iki seçenek de mantıklı. Düşman formülasyon benim için daha çekici, ancak ilerleme kaydetmek muhtemelen daha zor. Burada düşman bir dağılım vektörü (D1, D2, .., DN) seçer. Dağılımlar göz önüne alındığında, bütçe açısından en uygun politika, beklenen ödülü 1 $ 'dan büyük olan tüm silahları oynamaktır. P, bu en iyi her şeyi bilen politikanın adım başına karı olsun. Çevrimiçi politikamın bu her şeyi bilen politikayla pişmanlığı (yani bir zaman penceresi T üzerinden kar kaybını) en aza indirmesini istiyorum.


En iyi politikanın, beklenen ödülü her turda 1 dolardan fazla olan tüm silahları oynamak olduğundan emin misiniz? Her zaman negatif olmayan bir hesap bakiyesini korumanız gereken katı kısıtlamanız varsa, oynamanıza bile izin verilmeyen turlar olabilir.
Matthias

Yani ödül olasılıklarını bilmiyorsunuz, ama her bir kolun getirisini anlatabiliyor musunuz?
David Thornley

Olasılıkları ve beklenen ödülleri bilmiyorsunuz. Kendimi karşılaştırmak istediğim her şeyi bilen bir "optimal" politika, ancak tüm silahları 1'den büyük ödülle oynayabilir, çünkü her şeyi bilen.
Martin Pál

1
Θ(N)Ω(N)

Θ(N)

Yanıtlar:


13

Bu soruna birçok olası yaklaşım olduğunu hayal ediyorum (birçoğu düşündüğünüzden eminim) - işte birkaç fikir / referans.

  • N
  • O(2N/2T1/2)
  • Yaklaşan NIPS 2010 gazetesinde Saten Kale, Rob Schapire ve ben bir kerede bir silah arduvazını oynadığım durumu düşünüyorum . Ancak çalışmalarımızda, kayrakın boyutu sabittir. Bu makale de benzer bir sorunu ele almaktadır. Başka benzer iş Belki ALT 2010. fikirler transferi bazılarında çıktı.
  • 2NO(NT)O(2NT)

Aşağıdaki DÜZENLE:

01(n1)/nTT(n1)T/n

B02B1/B


Merhaba Lev, işaretçiler için teşekkürler. N paralel tek kol haydutları çalmak için sınırsız bir başlangıç ​​bütçem olsaydı sorunu çözeceğini kabul ediyorum. Ancak bütçe kısıtı, silahlar arasındaki bağlantıyı ortaya çıkarır ve işleri ilginçleştirir. Özellikle, ilk adımda sadece bir kolu oynamak için bütçeniz var. İkinci adımda, ilk adımda şanslı olup olmadığınıza bağlı olarak 11 kol veya sadece 1 kol oynayabilirsiniz. Bu nedenle, daha sonra daha fazla keşif yapmak için kullandığınız bir sürü karlı silah bulmak önemlidir.
Martin Pál

2
İlk bütçe olduğunu fark etmedim (şimdi "negatif olmayan denge" bölümünü anlıyorum, ama belki de soruda daha açık hale getirebilirsiniz?) - bu sorunu daha ilginç hale getiriyor. Ayrıca "bağlamsal" ya da uzman versiyonunu düşünmek eğlenceli olabilir. Ne yazık ki, bu sorun için daha alakalı referanslar bilmiyorum.
Lev Reyzin

Sorun formülasyonunu doğru anladıysam, her turda ekstra 1 $ kazanırsınız. Martin, soruyu belki açıklığa kavuşturabilir misin?
Jukka Suomela

Bence bir makineyi oynarsanız ödediğiniz parayı kazanırsınız ve oynamaya karar verdiğinizde 1 dolar kazanır ve kaybedersiniz.
Lev Reyzin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.