Aynı popülasyonun çoklu örneklemesinden kesişme olasılığı


10

Örnek bir örnek:

  • 10.000 maddelik bir nüfusa sahibim. Her öğenin benzersiz bir kimliği vardır.
  • 100 öğe rastgele seçiyorum ve kimlikleri kaydediyorum
  • 100 eşyayı tekrar nüfusa koydum
  • 100 öğeyi tekrar rastgele seçiyorum, kimlikleri kaydediyorum ve değiştiriyorum.
  • Toplamda, bu rastgele örneklemeyi 5 kez tekrar ediyorum

5 rasgele örneklemede sayısının öğe görülme olasılığı nedir ?X

İstatistikler konusunda çok bilgili değilim. Bu için doğru olur mu?X=10

  • Her örnekleme için 10.000'den 100 öğenin olası kombinasyon sayısıbinom(10000,100)
  • 100 öğeden oluşan tüm olası kombinasyonlardan kombinasyonlarında 10 belirli öğe bulunurbinom(9990,90)binom(100,10)
  • 10 belirli öğeye sahip olma olasılığı(binom(9990,90)binom(100,10))/binom(10000,100)
  • 5'in gücü için hesaplanan olasılık 5 bağımsız örneklemeyi temsil edecektir.

Yani aslında sadece 5 bağımsız hipergeometrik olasılığı hesaplıyoruz ve sonra bunları birbiriyle çarpıyoruz? Bir yerde bir adımı kaçırmış gibi hissediyorum.


3
Bir şeyi bir kez tekrarlarsanız, bunu iki kez yaptığınız anlamına gelir. Bir şeyi 5 kez tekrarlamak, bunu 6 kez yaptığınızı ima etmez mi?
Glen_b

Yanıtlar:


3

Şansları yinelemeli olarak hesaplayın.

Let tam olarak bu olasılık olmak değerleri , bütün seçilir ait çizer bağımsız bir nüfustan (yerine koymadan) öğeleri üye . ( ve analiz süresi boyunca sabit tutalım , böylece açıkça belirtilmeleri gerekmez.)ps(x)x0xks1knk>0nk

Let tam olarak eğer olasılığı olması değerleri ilk seçilir çeker, sonra da bunlardan son beraberlikle seçilir. Daha sonra , bu öğesinin öğesinin alt kümesi olduğundan ve kalan öğelerinin alt kümesi , popülasyonun diğer üyelerinden ayrı olarak seçilir ,ps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Toplam olasılık yasası

ps(x)=y=xkps(xy)ps1(y).

İçin , bir kesinlik var bu başlangıç dağılımı şöyle:.s=1x=k

tekrarları yoluyla tam dağılımı elde etmek için gereken toplam hesaplama . Sadece bu kadar hızlı değil, algoritma da kolay. Dikkatsiz programcıyı bekleyen bir tuzak, bu olasılıkların son derece küçük hale gelebilmesi ve kayan nokta hesaplamaları altını alabilmesidir. Aşağıdaki uygulama , bir dizinin sütunlarındaki değerlerini hesaplayarak bunu önler .sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Sorunun yanıtı ve . s=5, n=10000=104k=100=102 Çıktı dizisidir, ancak sayıların çoğu o kadar küçük ki çok küçük odaklanabiliriz . İşte karşılık gelen ilk dört satır :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Çıktı

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Değerleri değerleri ise satır etiket sütunları etiketleyin. Sütun 5, beş numunenin hepsinde bir öğenin görünme olasılığının minik (milyonda bir) olduğunu ve beş numunenin tamamında iki veya daha fazla öğenin görünme şansı olmadığını gösterir.xs

Bu şansların ne kadar küçük olduğunu görmek istiyorsanız, onların logaritmalarına bakın. Temel 10 uygundur ve çok sayıda basamağa ihtiyacımız yoktur:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Çıktı bize ondalık noktadan sonra kaç tane sıfır olduğunu söyler:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Üst satırdaki sayılar değeridir . Örneğin, beş örneklerde gösteren tam olarak üç değerlerinin şansı hesaplanmasıyla bulunan veren ve gerçekten de bu sahiptir önce sıfır ilk önemli basamak. Çek olarak, son değer yuvarlanmış versiyonudur . (sonraki dört örnekte ilk örneğin tekrar olasılığını sayar) değerine eşittirxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Ben de benzer bir problemle karşılaştım ve bunun doğru çözüm olup olmadığını bilmememe rağmen, şöyle yaklaştı:

Sen oluşunda ilgilendi á 5 örneklerinde öğelerin kalemleri öğeleri toplam. beyaz toplar ve siyah toplarla bir urn düşünebilirsiniz . top çıkarılır ve tüm beyaz topların olma olasılığıdır . Bunu kez (bağımsız olarak) : .X10010,000X10,000X100phX5p=ph5

Hatta bir adım daha ileri gidebilir ve binom dağılımının etrafına sarabilirim: olasılığı ( tüm eşyalara sahip olma olasılığı) ile ortaya çıkan bir madeni varsa ve kez , kafa alma olasılığı ? .ph55p=(55)ph5(1ph)55=ph5


0

5 rasgele örneklemede sayısının öğe görülme olasılığı nedir ?X

Hans'ın söylediklerine dayanarak, geri kalan 10000- arasından 100 ve 100- kimliklerinin her bir örneğinde her zaman aynı kimliklerini almak istersiniz . Belirli bir numune için bunu yaparken olasılığı için hipergeometrik fonksiyonu ile verilir ile 10000 arasında bir nüfustan 100 berabere başarılara olası başarı durumları: . 5 örnek için, alırsınız .XXXXXP=(XX)(10000X100X)(10000100)P5

Bununla birlikte, paylaşılan kimliklerini bildiğimizi varsayıyoruz ve bu kimliklerini seçmek için select yolu var . Yani son cevabınız .X(10000X)X(10000X)P5


" " nedir? Bu cevabı anlamak imkansızdır, siz ortaya çıkana kadar çok daha az kontrol edin! x
whuber

Hatırlamıyorum, 3 yıl önce olduğu gibi, ama muhtemelen sorudaki X ile aynı mı?
Hao Ye

TAMAM. Peki formülünüzü haklı çıkartan nedir? Durum gibi basit kontroller (bunun için formülünüzün olasılığı olduğunu söyler , böylece diğer olasılıkları tamamen ortadan kaldırır!), Bunun yanlış olduğunu gösterir. X=01
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.