Madeni para çevirme, karar süreçleri ve bilginin değeri


14

Aşağıdaki kurulumu düşünün: 2 jetonunuz, adil olacağı garanti edilen A jetonunuz ve adil ya da adil olmayan B jetonunuz var. Sizden 100 jeton çevirme yapmanız isteniyor ve hedefiniz kafa sayısını maksimuma çıkarmak .

B parası hakkında önceden bilgileriniz 3 kez çevrilmiş ve 1 kafa verilmiş olmasıdır. Karar kuralınız sadece 2 jetonun kafalarının beklenen olasılığını karşılaştırmaya dayanıyorsa, A parasını 100 kez çevirir ve onunla yapılırsınız. Bu, olasılıkların makul Bayes tahminlerini (posterior ortalamalar) kullanırken bile geçerlidir, çünkü B parasının daha fazla kafa verdiğine inanmak için bir nedeniniz yoktur.

Ancak, eğer B parası aslında kafalar lehine önyargılıysa? Elbette B parasını birkaç kez çevirerek vazgeçtiğiniz "potansiyel kafalar" (ve dolayısıyla istatistiksel özellikleri hakkında bilgi edinme) bir anlamda değerli olacaktır ve bu nedenle kararınızı etkileyecektir. Bu "bilginin değeri" matematiksel olarak nasıl tanımlanabilir?

Soru: Bu senaryoda matematiksel olarak en uygun karar kuralını nasıl oluşturuyorsunuz?


Cevabımı siliyorum. Çok fazla insan açıkça bir öncekini kullandığımdan (literatürde standart) şikayet ediyor. Cam Davidson Pilon'un da daha önce (ama hiç kimse itiraz etmiyor) varsaydığı yanlış cevabın tadını çıkarın ve optimalin 1.035'in altında bir yöntem olduğunu iddia ediyor.
Douglas Zare

whoah, bunlar ne zaman oldu? BTW, Douglas ile bir önceki kullanmanın iyi olduğunu kabul ediyorum. Ben de iyimserlik iddiamı geri çekiyorum.
Cam.Davidson.Pilon

Cam'ın çözümünü kabul ediyorum çünkü bana çok yardımcı oldu. İdeal olmadığına katılıyorum, ancak biri kolayca hesaplanabilecek genel bir optimal çözümü gösteremezse , en iyi seçenektir.
M.Cypher

Neden bu kadar kötüydü ki "bayesian" etiketli bir soruyu cevaplamak için bir öncekini (açıkça belirttiğim) kullandım?
Douglas Zare

1
Öncekinin kullanımını eleştirmedim. Bir üniforma olarak, tek tip olandan (örneğin Jeffrey'nin) daha uygun öncelikler olabileceğinden bahsettim, ancak bu sadece soru ile çok az ilgili. Çözümünüz mükemmel derecede iyiydi, benim için o kadar da kullanışlı değildi çünkü kolayca genelleme yapmıyor.
M.Cypher

Yanıtlar:


7

Çok Kollu Eşkıya

Bu çok kollu bir haydut sorununun özel bir örneğidir . Genellikle biz bilmiyoruz çünkü belirli bir durumu söylemek herhangi kafaların olasılıklarının (bu durumda biz paralar biri olasılığı 0.5 olduğunu biliyorum).

Ortaya koyduğunuz konu, keşif ve sömürü ikilemi olarak bilinir : diğer seçenekleri araştırıyor musunuz veya en iyi olduğunu düşündüğünüz şeylere sadık kalıyor musunuz? Tüm olasılıkları bildiğinizi varsayan hemen optimal bir çözüm var : en yüksek kazanma olasılığı olan parayı seçin. Sorun, belirttiğiniz gibi, gerçek olasılıkların ne olduğundan emin olamamamızdır .

Konuyla ilgili çok sayıda literatür var ve birçok belirleyici algoritma var, ancak bu Bayesian'ı etiketlediğinizden beri, size en sevdiğim çözümümden bahsetmek istiyorum: Bayesci Haydut !

Baysian Haydut Çözümü

Bu soruna Bayesci yaklaşım çok doğal. " X parasının ikisinden daha iyi olma olasılığı nedir ?"

Bir önsel , Gözlemlediğimiz varsayarak hiçbir sikke biz sikke B'nin Başkanları olasılığı ne olabileceğini hiçbir fikrim yok, ama çevirir, bu bilinmeyen ifade . Bu yüzden bu bilinmeyen olasılığa önceden düzgün bir dağılım vermeliyiz. Alternatif olarak, A parası için önceki (ve posterior) önemsiz bir şekilde tamamen 1/2 oranında konsantre edilir.pB

Belirttiğiniz gibi, madeni paradan 2 kuyruk ve 1 kafa gözlemliyoruz, posterior dağılımımızı güncellememiz gerekiyor. Önceden üniform ve flipslerin Bernoulli coin-flips olduğu varsayıldığında, posteriorumuz bir . Posterior dağılımları veya A ve B'yi şimdi karşılaştırmak:Beta(1+1,1+2)

resim açıklamasını buraya girin

Yaklaşık olarak optimal bir strateji bulma

Artık posterlerimiz var, ne yapmalı? "B olasılık parası nedir bu ikisinden daha iyidir" yanıtını almak istiyoruz (hangisinin daha iyi olduğuna dair kesin bir cevap olmasına rağmen, sadece olasılıklarda konuşabiliyoruz).

wB=P(pb>0.5)

Yaklaşık olarak en uygun çözüm, olasılığı olan ve olasılığı olan . Bu şema beklenen kazanımları en üst düzeye çıkarır. Posterior dağılımı bildiğimiz için sayısal olarak hesaplanabilir, ancak ilginç bir yol şudur: 1 - w B w BwB1wBwB

1. Sample P_B from the posterior of coin B
2. If P_B > 0.5, choose coin B, else choose coin A.

Bu şema da kendini güncelliyor. B parasını seçmenin sonucunu gözlemlediğimizde, posteriorumuzu bu yeni bilgilerle güncelliyoruz ve tekrar seçiyoruz. Bu şekilde, B parası gerçekten kötüyse, onu daha az seçeceğiz ve B parası aslında gerçekten iyi, daha sık seçeceğiz. Tabii ki, biz Bayesiyiz, bu yüzden B parasının daha iyi olduğundan kesinlikle emin olamayız. Olasılıkla böyle seçmek , keşif-sömürü ikileminin en doğal çözümüdür .

Bu, Thompson Sampling'in özel bir örneğidir . Daha fazla bilgi ve çevrimiçi reklamcılığa havalı uygulamalar Google'ın araştırma makalesinde ve Yahoo'nun araştırma makalesinde bulunabilir . Bu şeyleri seviyorum!


2
Bu stratejinin doğru olduğunu düşünmüyorum. A veya B'yi olasılıkla seçmeyi seçmeniz gerektiğini düşünmüyorum.
Douglas Zare

2
Kağıdın ne düşündüğünü söylediğini sanmıyorum. Kabul etmiyorsanız, lütfen bu strateji altında elde edeceğiniz beklenen sayıda kafa sayısını hesaplayın.
Douglas Zare

5
Bunun en uygun olana yakın olduğunu düşünmüyorum. İlk kapakta, 1/2 olasılıkla B'yi seçtiğinizi gösterir. A'yı seçerseniz hiçbir bilgi alamayacağınız açık olmalıdır, bu yüzden her zaman B'yi seçmelisiniz. Bu hatayla kaybettiğiniz miktar, yaptığınız zaman yaklaşık 0.12'dir, bu nedenle ilk adımda yaklaşık 0.06 tutar. Sonraki birkaç adımda herhangi bir bilgi toplayıp toplamayacağınıza karar vermek için kabaca bir para çevirdiğinizde benzer bir miktar kaybedersiniz. Ters çevirmek, bulabileceğiniz bir avantajdan yararlanmak için daha az zamanınız olduğu anlamına gelir.
Douglas Zare

3
0.5

1
@DouglasZare Tek ölçünüz, madeni para çevirmelerimiz göz önüne alındığında beklenen kafa sayısı ise, en iyi strateji her zaman madeni para A'yı seçmektir . keşif . Önerinizin mantıksal sonucu, denemeyi yeniden başlatırsak, B parasını bir kez çevirmek: eğer Kuyruklar ise, her zaman A'yı seçin; başka tekrar çevirin, eğer Kafalar her zaman B'yi seçin
Cam.Davidson.Pilon

9

Bu çok kollu bir haydut sorununun basit bir örneğidir . Belirttiğiniz gibi, kısa vadede sahip olduğunuz bilgiyi sömürmeye karşı yetersiz olduğunu düşündüğünüzde bilinmeyen parayı deneyerek topladığınız bilgileri dengelemek istersiniz.

1/2

Genel olarak, dinamik bir programlama probleminden kurtulamayacağınızı düşünüyorum, ancak en uygun stratejinin daha basit bir şekilde bulunabileceği ve kontrol edilebileceği özel durumlar olabilir.

Önceden üniforma ile, burada durmanız gereken yer:

(0 heads,3 tails),(1 head,5 tails),(2 heads,6 tails),(3,7),(4,8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50)

61.3299

Varlıkları hesaplamak için aşağıdaki Mathematica kodunu kullandım:

Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] = 
    If[n == 0, heads, 
       Max[1/2 + Equity[n - 1, heads, tails], 
           (heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] + 
           (tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
           ]
      ]

Karşılaştırma için, Thompson örnekleme buluşsal yöntemi (Cam Davidson Pilon'un en uygun olduğunu iddia ettiği gibi) ortalama 60.2907 kafa, daha düşük 1.03915 verir. Thompson örneklemesi, iyi bir bahis olmadığını bilmek için yeterli bilgiye sahip olduğunuzda bazen B'yi örnekleme sorununa sahiptir ve çoğu zaman bilginin en değerli olduğu durumlarda B örneğini alma şansını sıklıkla boşa harcar. Bu tür bir problemde, seçenekleriniz arasında neredeyse hiç kayıtsız kalmazsınız ve saf bir optimal strateji vardır.

tp[heads_, tails_] := tp[heads, tails] = 
    Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]


Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] = 
    If[flipsLeft == 0, heads, 
       Module[{p = tp[heads, tails]}, 
           p (1/2 + Thompson[flipsLeft-1,heads,tails]) + 
           (1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] + 
           ((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]

İdeal bir çözümün yaklaşık bir çözümden daha iyi olacağına katılıyorum. Birkaç yüz "jeton" ile dinamik bir ortamda milisaniye içinde verimli bir şekilde uygulanabilecek en iyi genel çözüm olup olmadığını merak ediyorum . Değilse, sanırım Thompson örnekleme en iyi seçenektir.
M.Cypher

Thompson örneklemesi zayıf bir yaklaşımdır. (En kötü karesel) kesin hesaplama sorununu yaşamak istemiyorsanız, ancak yine de büyük hatalardan kaçınmak istiyorsanız, kullanabileceğiniz daha iyi yaklaşımlar vardır. Aslında, kesin hesaplama lineere daha yakın olabilir.
Douglas Zare

PrB(heads)1 / 2 50(0,1)1/250

Mathematica'yı bilmiyorum, bu yüzden beklenen kafa sayısını nasıl hesapladığınızı takip edemiyorum. O kısmı açıklamak ister misiniz? Madeni para B'nin önyargısının [0,1] üzerindeki homojen bir dağılımdan çekildiğini varsayarsak, o zaman 50/50'yi nasıl yeneceğinizi göremiyorum.
Mart'ta jerad

1
Douglas: Çünkü cevabına daha fazla önem verdim :-). Lütfen beni yanlış anlamayın - hoşuma gitti ve bu konuyu seviyorum. Cevabınızı almak için bir varsayım eklemeniz gerektiğini belirtmenin önemli olduğunu düşündüm, hepsi bu. Pratik bir mesele olarak, bu da dahil olmak üzere birçok durumda önceden yoktur . (Kesinlikle kişisel bir daha önce makyaj yapmak ve daha sonra büyük para bahse girmek istemem!) Ama elbette bir kayıp fonksiyonu belirtmeniz koşuluyla hala bir optimum var . (Bir beklentiyi "en üst düzeye çıkarmak" tam bir kayıp işlevi değildir.)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.