Bu, çıkarsamaya yönelik sık ve Bayesci yaklaşımlar arasındaki farkı göstermek için harika bir örnektir.
İlk, basit, sık sık verilen yanıtım:
Eğer grevlerin dağılımının binom olduğunu varsaydıysanız, diğer 1000 oyuncu hakkında hiçbir şey bilmenize gerek yoktur (binom varsayımınızı kontrol etmek için belki de kullanabilirsiniz).
Binom varsayımını netleştirdikten sonra tahmininiz çok basittir: 3/10. Bu tahminin varyansı, normal p (1-p) / n = 0.021'dir.
Temel olarak, grev dağılımı hakkında ilginç ve binom olmayan bir şey olduğunu düşünmedikçe diğer 1000 oyuncu ilgisizdir (örneğin, insanlar daha fazla oyun oynadıkça daha iyi olurlar).
Daha düşünülmüş bir Bayesci bakış açısı:
Alternatif olarak, diğer oyunculardan aldığınız önceki bilgileri uygulamakla ilgileniyorsanız ve yeni oyuncunun temelde aynı popülasyondan yeni bir örnek olduğunu düşünüyorsanız, Bayesian'da düşünmelisiniz. şartları .
Oyuncuların önceden dağılımını tahmin edin. Bunu yapmak için, 1000 veri noktanıza bakmanız gerekir - daha önce gözlemlenmiş olan 1000 oyuncu, her biri için bir grev olasılığı hakkında tahmininiz vardır. Bu 1000 noktanın her biri 21 değerden yalnızca birini alabilir (yirmiden sıfırdan yirmi vuruşa kadar) ve tüm alan üzerinde bir dağılım göreceksiniz. Bu puanları oranlara dönüştürürseniz (yani sıfır ile bir arasında), bu dağılım, bir Beta dağılımıyla rastgele bir değişkenin olasılık dağılımı ile oldukça iyi bir şekilde tahmin edilebilir.. Bir beta dağılımı tamamen sadece iki parametre ile karakterize edilir - diyelim a ve b - ancak bu parametreler gerçekten bize sorduğunuz dağılımla (belirli oyuncunun kendi grev olasılığı) değil, daha yüksek seviyeli bir dağılımla onlara hiperparametreler diyoruz. Sorunuzun ana noktasıyla gerçekten ilgili olmayan birkaç yoldan biriyle, 1000 veri noktalarınızdan bu hiperparametrelerin tahminlerini geliştirebilirsiniz.
Oyuncunuz hakkında herhangi bir bilgiye sahip olmadan önce, bir grev puanlama oranı (p diyelim) için en iyi tahmininiz, yeni taktığımız Beta dağıtımından p'nin en olası değeri olacaktır.
Ancak, sadece genel nüfusa değil, kendi oyuncumuzla ilgili verilerimiz var! Tanrı'ya güveniyoruz, diğerlerinin veri getirmesi gerekir (bulduğum yeri hatırlayabilseydim, bu alıntıyı atfedebilirim, üzgünüm). Oyuncumuzun bir oyun oynadığını ve grev alıp almadığını her gözlemlediğimizde, oranına ilişkin tahminimizi kesinleştirmek için yeni bir bilgiye sahibiz.
Bir oran için olasılık dağılımı olarak beta dağılımı ile ilgili düzgün şeylerden biri, verilerden yeni bilgiler topladığımız ve oranın yeni, geliştirilmiş bir tahminini oluştururken, olasılık teorisinin yeni, geliştirilmiş tahminin de bir beta olduğunu gösterebilmesidir. dağıtım - sadece daha konsantre bir versiyon. Bunun nedeni, beta dağılımının, bir binom modeli hakkında tahmin yapmaya çalışırken daha önce bir eşlenik olarak adlandırılmasıdır .
Yani, n başarılı olaydan z'yi gözlemlersek (bu durumda grevli oyunlar); ve önceki dağılım beta (a, b) idi; posterior dağılım (hem orijinal 1000 veri noktası verilen p'nin olasılık dağılımının tahminidir ve on oyunun yeni gözlemidir) beta (a + z, b + nz) veya (bizim durumumuzda) beta (a + 3, b + 7). Gördüğünüz gibi, ne kadar çok veri alırsanız a ve b o kadar az önem taşır. Bunun matematiği oldukça açık ve birçok metinde ama o kadar da ilginç değil (benim için, zaten).
R'niz varsa, aşağıdaki kodu çalıştırarak bir örnek görebilirsiniz (ve R'niz yoksa bunu almalısınız - ücretsizdir ve bu tür bir sorunu düşünmenize yardımcı olmak için harika). Bu, oyuncuların önceki dağılımının beta (2,5) ile modellenebileceğini varsayar - bu benim tarafımdan oluşturuldu. Gerçekte, a ve b için rakamları sadece 2 ve 5'i yapmaktan daha iyi tahmin etmenin yolları vardır, çünkü bence eğri iyi görünüyor.
Bu stilize örneği çalıştırıp çalıştırmadığınızı göreceğiniz gibi, daha önce beta (2,5) dağılımı verildiğinde, oyuncunun grev yapma olasılığının nokta tahmini 0.30 yerine 0.29'dur. Ayrıca, bir güven aralığından çok daha sezgisel ve açıklanması daha kolay olan bir güvenilirlik aralığı oluşturabiliriz (CrossValidated dahil olmak üzere ikisi arasındaki farkın internetteki birçok soru ve tartışmasına bakın).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
Sonra yeni oynatıcınızı gözlemleyin; ve yeni oyuncu için yeni bir posterior dağılım hesaplayın. Etkili bir şekilde bu, "az önce gözlemlediğimiz şey göz önüne alındığında, oyuncuların dağılımında nerede olabileceğini düşünüyoruz?"