Referans popülasyonu verildiğinde başarı olasılığını tahmin etme


11

Aşağıdaki duruma sahip olduğunuzu varsayalım:

Zaman içinde her biri nispeten az sayıda oyun oynayan 1000 bowling oyuncusu gözlemlediniz (1 ile 20 arasında). Bu oyuncuların her birinin, bu oyuncuların oynadığı oyun sayısı üzerinden grev yüzdesini not ettiniz.

Yeni bir bowling oyuncusu geliyor ve 10 oyun oynuyor ve 3 grev alıyor.

Herhangi bir oyuncu için vuruş sayısı dağılımının binom olduğu varsayılır.

O oyuncu için "gerçek" başarı olasılığını tahmin etmek istiyorum.

Lütfen aşağıdakilere dikkat edin:

  1. Bu gerçek bir durum ya da bir okul sorunu değil, sadece kendi kendini düşünen bir sorun.
  2. Stats 101 dersinden daha az istatistik eğitimi almış bir öğrenciyim. Maksimum olabilirlik tahmini gibi çıkarım hakkında biraz bilgim var ... Bu yüzden bana istatistiklerde okumam gereken alanları söylemekten çekinmeyin.
  3. Sorunum bilgi eksik olabilir veya başarı olasılığının dağılımının yaklaşık normal olması için faydalı olursa, lütfen bana söyleyin.

Çok teşekkür ederim


Bu oyuncunun olasılığı ile diğer 1000 oyuncunun her birinin olasılığı arasındaki ilişkinin ne olduğunu düşünüyorsunuz? Başka bir deyişle, neden diğer 1000'i bu oyuncunun probunu tahmin ederken düşünelim?
rolando2

1
Oyuncunun gerçek grev yüzdesinin aslında diğer 1000 oyuncu ile aynı grev yüzdelerinin dağılımının gerçekleştiğini varsayıyorum. Başka bir deyişle, o yeni oyuncu hakkında özel bir şey yok, o sadece başka bir rastgele oyuncu. Umarım bu mantıklıdır.
Uwat

Yanıtlar:


10

Bu, çıkarsamaya yönelik sık ve Bayesci yaklaşımlar arasındaki farkı göstermek için harika bir örnektir.

İlk, basit, sık sık verilen yanıtım: Eğer grevlerin dağılımının binom olduğunu varsaydıysanız, diğer 1000 oyuncu hakkında hiçbir şey bilmenize gerek yoktur (binom varsayımınızı kontrol etmek için belki de kullanabilirsiniz).

Binom varsayımını netleştirdikten sonra tahmininiz çok basittir: 3/10. Bu tahminin varyansı, normal p (1-p) / n = 0.021'dir.

Temel olarak, grev dağılımı hakkında ilginç ve binom olmayan bir şey olduğunu düşünmedikçe diğer 1000 oyuncu ilgisizdir (örneğin, insanlar daha fazla oyun oynadıkça daha iyi olurlar).

Daha düşünülmüş bir Bayesci bakış açısı: Alternatif olarak, diğer oyunculardan aldığınız önceki bilgileri uygulamakla ilgileniyorsanız ve yeni oyuncunun temelde aynı popülasyondan yeni bir örnek olduğunu düşünüyorsanız, Bayesian'da düşünmelisiniz. şartları .

Oyuncuların önceden dağılımını tahmin edin. Bunu yapmak için, 1000 veri noktanıza bakmanız gerekir - daha önce gözlemlenmiş olan 1000 oyuncu, her biri için bir grev olasılığı hakkında tahmininiz vardır. Bu 1000 noktanın her biri 21 değerden yalnızca birini alabilir (yirmiden sıfırdan yirmi vuruşa kadar) ve tüm alan üzerinde bir dağılım göreceksiniz. Bu puanları oranlara dönüştürürseniz (yani sıfır ile bir arasında), bu dağılım, bir Beta dağılımıyla rastgele bir değişkenin olasılık dağılımı ile oldukça iyi bir şekilde tahmin edilebilir.. Bir beta dağılımı tamamen sadece iki parametre ile karakterize edilir - diyelim a ve b - ancak bu parametreler gerçekten bize sorduğunuz dağılımla (belirli oyuncunun kendi grev olasılığı) değil, daha yüksek seviyeli bir dağılımla onlara hiperparametreler diyoruz. Sorunuzun ana noktasıyla gerçekten ilgili olmayan birkaç yoldan biriyle, 1000 veri noktalarınızdan bu hiperparametrelerin tahminlerini geliştirebilirsiniz.

Oyuncunuz hakkında herhangi bir bilgiye sahip olmadan önce, bir grev puanlama oranı (p diyelim) için en iyi tahmininiz, yeni taktığımız Beta dağıtımından p'nin en olası değeri olacaktır.

Ancak, sadece genel nüfusa değil, kendi oyuncumuzla ilgili verilerimiz var! Tanrı'ya güveniyoruz, diğerlerinin veri getirmesi gerekir (bulduğum yeri hatırlayabilseydim, bu alıntıyı atfedebilirim, üzgünüm). Oyuncumuzun bir oyun oynadığını ve grev alıp almadığını her gözlemlediğimizde, oranına ilişkin tahminimizi kesinleştirmek için yeni bir bilgiye sahibiz.

Bir oran için olasılık dağılımı olarak beta dağılımı ile ilgili düzgün şeylerden biri, verilerden yeni bilgiler topladığımız ve oranın yeni, geliştirilmiş bir tahminini oluştururken, olasılık teorisinin yeni, geliştirilmiş tahminin de bir beta olduğunu gösterebilmesidir. dağıtım - sadece daha konsantre bir versiyon. Bunun nedeni, beta dağılımının, bir binom modeli hakkında tahmin yapmaya çalışırken daha önce bir eşlenik olarak adlandırılmasıdır .

Yani, n başarılı olaydan z'yi gözlemlersek (bu durumda grevli oyunlar); ve önceki dağılım beta (a, b) idi; posterior dağılım (hem orijinal 1000 veri noktası verilen p'nin olasılık dağılımının tahminidir ve on oyunun yeni gözlemidir) beta (a + z, b + nz) veya (bizim durumumuzda) beta (a + 3, b + 7). Gördüğünüz gibi, ne kadar çok veri alırsanız a ve b o kadar az önem taşır. Bunun matematiği oldukça açık ve birçok metinde ama o kadar da ilginç değil (benim için, zaten).

R'niz varsa, aşağıdaki kodu çalıştırarak bir örnek görebilirsiniz (ve R'niz yoksa bunu almalısınız - ücretsizdir ve bu tür bir sorunu düşünmenize yardımcı olmak için harika). Bu, oyuncuların önceki dağılımının beta (2,5) ile modellenebileceğini varsayar - bu benim tarafımdan oluşturuldu. Gerçekte, a ve b için rakamları sadece 2 ve 5'i yapmaktan daha iyi tahmin etmenin yolları vardır, çünkü bence eğri iyi görünüyor.

Bu stilize örneği çalıştırıp çalıştırmadığınızı göreceğiniz gibi, daha önce beta (2,5) dağılımı verildiğinde, oyuncunun grev yapma olasılığının nokta tahmini 0.30 yerine 0.29'dur. Ayrıca, bir güven aralığından çok daha sezgisel ve açıklanması daha kolay olan bir güvenilirlik aralığı oluşturabiliriz (CrossValidated dahil olmak üzere ikisi arasındaki farkın internetteki birçok soru ve tartışmasına bakın).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Sonra yeni oynatıcınızı gözlemleyin; ve yeni oyuncu için yeni bir posterior dağılım hesaplayın. Etkili bir şekilde bu, "az önce gözlemlediğimiz şey göz önüne alındığında, oyuncuların dağılımında nerede olabileceğini düşünüyoruz?"


2
Bunun doğru olduğunu düşünmüyorum. 1000 kişi arasındaki insanların büyük çoğunluğunun (% 99)% 5 ila% 15 arasında grev yüzdesi ve bir avuç% 25'in üzerinde grev yüzdesi olduğunu varsayalım. O zaman, gözlemlediğimiz yeni oyuncunun gerçek vuruş yüzdesinin% 30'dan daha düşük olduğunu, ancak sadece "şanslı" olduğunu iddia ediyorum.
Uwat

tamam, iyi bir nokta - Bu durumu hesaba katmak için bir düzenleme ekledim. Temelde bir Bayes çıkarsama sorunu hakkında iyi bir açıklama var.
Peter Ellis

@Peter - hepsi güzel tartıştı.
rolando2

Cevabınız için teşekkürler. Bununla birlikte, ne demek istediğinizi tam olarak anlamadım: "Bireylerin grev oranlarının muhtemelen bir tür Beta olacak gerçek bir dağılımına ihtiyacınız var" Lütfen biraz açıklığa kavuşturabilir misiniz? Teşekkürler
Uwat

Teşekkürler, gerçekten iyi bir soru, cevabımı büyük ölçüde genişlettim.
Peter Ellis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.