11

Başımı bu sorunun etrafına sarmaya çalışıyorum.
Bir kalıp 100 kez yuvarlanır. Hiçbir yüzün 20 kereden fazla görünmeme olasılığı nedir? İlk düşüncem Binom dağılımı P (x) = 1-6 cmf (100, 1/6, 20) kullanmaktı, ancak bazı vakaları birden fazla saydığımız için bu kesinlikle yanlış. İkinci fikrim x1 + x2 + x3 + x4 + x5 + x6 = 100 gibi tüm olası ruloları numaralandırmak, böylece xi <= 20 olacak ve multinomiyalleri toplayacak ama bu çok hesaplama açısından yoğun görünüyor. Yaklaşık çözümler benim için de işe yarayacak.

— Anonim
kaynak

13

Bu ünlü Doğum Günü Sorununun bir genellemesidir : olasılık kümesi arasında rastgele, eşit olarak dağıtılmış "doğum günleri" olan $n=100$ kişi göz önüne alındığında , hiçbir doğum gününün fazla kişi tarafından paylaşılma şansı nedir? $d=6$ $m=20$

Kesin bir hesaplama cevabını verir (iki kat hassasiyetle). Teoriyi çizeceğim ve genel için kod vereceğim Kodun asimptotik zamanlaması dir ve bu da onu çok sayıda doğum günü için uygun hale getirirve binlerceyekadar makul performans sağlar. Bu noktada, Poisson yaklaşımı, doğum günü paradoksunu 2'den fazla kişiye genişletme konusundatartışıldı,çoğu durumda iyi çalışmalıdır. $0.267\,747\,907\,805\,267$ $n, m, d.$ $O(n^2\log(d))$ $d$ $n$

Çözüm açıklaması

taraflı bir kalıbın bağımsız merdanesinin sonuçları için olasılık oluşturma fonksiyonu (pgf) $n$ $d$

d^{- n} f_{n} (x_{1}, x_{2}, ..., x_{d}) = d^{- n} (x_{1} + x_{2} + \dots + x_{d})^{n} .

$d^{-n}f_n(x_1,x_2,\ldots,x_d) = d^{-n}(x_1+x_2+ \cdots + x_d)^n.$

Katsayısı Bu multinomial genişlemesi karşılaştıkları hangi yollarla sayısını verir tam görünebilir , kat $x_1^{e_1}x_2^{e_2}\cdots x_d^{e_d}$ $i$ $e_i$ $i=1, 2, \ldots, d.$

En fazla bizim ilgi sınırlandırılması herhangi yüze göre görünüşe değerlendirilmesi için eşit olduğunu idealdir modulo tarafından üretilen Bu değerlendirmeyi yapmak için Binom Teoremini tekrar tekrar kullanın. $m$ $f_n$ $\mathcal I$ $x_1^{m+1}, x_2^{m+1}, \ldots, x_d^{m+1}.$

\begin{aligned} f_{n} (x_{1}, ..., x_{d}) & = ((x_{1} + \dots + x_{r}) + (x_{r + 1} + x_{r + 2} + \dots + x_{2 r}))^{n} \\ = Σ_{k = 0}^{n} (\binom{n}{k}) (x_{1} + \dots + x_{r})^{k} (x_{r + 1} + \dots + x_{2 r})^{n - k} \\ = Σ_{k = 0}^{n} (\binom{n}{k}) f_{k} (x_{1}, ..., x_{r}) f_{n - k} (x_{r + 1}, ..., x_{2 r}) \end{aligned}

$\eqalign{ f_n(x_1, \ldots, x_d) &= ((x_1+\cdots+x_r) + (x_{r+1}+x_{r+2} + \cdots + x_{2r}))^n \\ &= \sum_{k=0}^n \binom{n}{k} (x_1+\cdots+x_r)^k (x_{r+1}+\cdots+x_{2r})^{n-k} \\ &= \sum_{k=0}^n \binom{n}{k} f_k(x_1, \ldots, x_r) f_{n-k}(x_{r+1}, \ldots, x_{2r}) }$

zaman ve eşitlenir. Yazma ( terimleri), elimizdeki $d=2r$ $f_n^{(d)} = f_n(1,1,\ldots, 1)$ $d$

\begin{matrix} (A) & f_{n}^{(2 r)} = Σ_{k = 0}^{n} (\binom{n}{k}) f_{k}^{(r)} f_{n - k}^{(r)} . \end{matrix}

$f_n^{(2r)} = \sum_{k=0}^n \binom{n}{k} f_k^{(r)} f_{n-k}^{(r)}.\tag{a}$

Tüm garip, benzer bir ayrışma kullanımı $d=2r+1$

\begin{aligned} f_{n} (x_{1}, ..., x_{d}) & = ((x_{1} + \dots + x_{2 r}) + x_{2 r + 1})^{n} \\ = Σ_{k = 0}^{n} (\binom{n}{k}) f_{k} (x_{1}, ..., x_{2 r}) f_{n - k} (x_{2 r + 1}), \end{aligned}

$\eqalign{ f_n(x_1, \ldots, x_d) &= ((x_1+\cdots+x_{2r}) + x_{2r+1})^n \\ &= \sum_{k=0}^n \binom{n}{k} f_k(x_1, \ldots, x_{2r}) f_{n-k}(x_{2r+1}), }$

vererek

\begin{matrix} (B) & f_{n}^{(2 r + 1)} = Σ_{k = 0}^{n} (\binom{n}{k}) f_{k}^{(2 r)} f_{n - k}^{(1)} . \end{matrix}

$f_n^{(2r+1)} = \sum_{k=0}^n \binom{n}{k} f_k^{(2r)} f_{n-k}^{(1)}.\tag{b}$

Her iki durumda da, modulo olan her şeyi azaltabiliriz. $\mathcal I$

f_{n} (x_{j}) ≅ {\begin{matrix} x^{n} & n \leq m \\ 0 & n > m \end{matrix} şık ben,

$f_n(x_j) \cong \left\{ \matrix{x^n & n \le m \\ 0 & n \gt m} \right. \mod \mathcal{I},$

özyineleme için başlangıç değerlerinin sağlanması,

f_{n}^{(1)} = {\begin{matrix} 1 & n \leq m \\ 0 & n > m \end{matrix}

$f_n^{(1)} = \left\{ \matrix{1 & n \le m \\ 0 & n \gt m} \right.$

Bunu etkili kılan, değişkenlerini her biri eşit büyüklükte iki değişken grubuna bölerek ve tüm değişken değerlerini ayarlayarak her şeyi bir grup için sadece bir kez değerlendirip sonuçları birleştirmemizdir. Bu , her biri kombinasyon için hesaplamasına ihtiyaç duyan terimine kadar hesaplama gerektirir . Hatta saklamak için bir 2D dizi gerekmez , hesaplanırken için sadece $d$ $r$ $1,$ $n+1$ $O(n)$ $f_n^{(r)}$ $f_n^{(d)},$ ve gereklidir. $f_n^{(r)}$ $f_n^{(1)}$

Toplam adım sayısı, nin ikili genişlemesindeki basamak sayısından (bu, formül daki bölünmeleri eşit gruplara sayar ) artı genişlemedeki sayıların sayısından (her seferinde tek sayılan) ) formülünün uygulanmasını gerektiren değerle karşılaşılır . Bu hala sadece adımları. $d$ $(a)$ $(b)$ $O(\log(d))$

In Rbir on yıllık iş istasyonu üzerinde çalışmak 0.007 saniyede yapıldı. Kod, bu yazının sonunda listelenir. Olası taşmaları veya çok fazla taşmayı biriktirmemek için olasılıkların yerine olasılıkların logaritmasını kullanır. Bu , çözümdeki faktörünün çıkarılmasını mümkün kılar , böylece olasılıkların altında yatan sayıları hesaplayabiliriz. $d^{-n}$

Bu prosedürün olasılıklarının tümünün aynı anda hesaplanmasıyla sonuçlandığını ve bu da şansın ile nasıl değiştiğini kolayca incelememizi sağlar . $f_0, f_1, \ldots, f_n$ $n$

Uygulamalar

Genelleştirilmiş Doğum Günü Sorunundaki dağılım, fonksiyon tarafından hesaplanır tmultinom.full. Tek zorluk, bir çarpışma şansının çok büyük hale gelmesinden önce mevcut olması gereken insan sayısı için bir üst sınır bulmaktır. Aşağıdaki kod bunu küçük ile başlayan ve yeterince büyük olana kadar iki katına çıkaran kaba kuvvetle yapar . Bütün hesaplanması, bu yüzden alır bir zaman burada bir çözümdür. Aracılığıyla halkın sayılar için olasılıkların tüm dağıtım yukarı hesaplanır. $m+1$ $n$ $O(n^2\log(n)\log(d))$ $n$ $n$

#
# The birthday problem: find the number of people where the chance of
# a collision of `m+1` birthdays first exceeds `alpha`.
#
birthday <- function(m=1, d=365, alpha=0.50) {
  n <- 8
  while((p <- tmultinom.full(n, m, d))[n] > alpha) n <- n * 2
  return(p)
}

Örnek olarak, bir kalabalığın hesaplamada bulunan en az sekizinin doğum gününü paylaşma olasılığından daha fazla olması için gereken minimum kişi sayısı . Sadece birkaç saniye sürüyor. İşte çıktının bir parçası: $798$ birthday(7)

Bu sorunun özel bir sürümü , doğum günü paradoksunu 2'den fazla kişiye genişletme konusunda ele alınmıştır, bu da çok sayıda haddelenmiş taraflı bir kalıp vakasıyla ilgilidir . $365$

kod

# Compute the chance that in `n` independent rolls of a `d`-sided die, 
# no side appears more than `m` times.
#
tmultinom <- function(n, m, d, count=FALSE) tmultinom.full(n, m, d, count)[n+1]
#
# Compute the chances that in 0, 1, 2, ..., `n` independent rolls of a
# `d`-sided die, no side appears more than `m` times.
#
tmultinom.full <- function(n, m, d, count=FALSE) {
  if (n < 0) return(numeric(0))
  one <- rep(1.0, n+1); names(one) <- 0:n
  if (d <= 0 || m >= n) return(one)

  if(count) log.p <- 0 else log.p <- -log(d)
  f <- function(n, m, d) {                   # The recursive solution
    if (d==1) return(one)                    # Base case
    r <- floor(d/2)
    x <- double(f(n, m, r), m)               # Combine two equal values
    if (2*r < d) x <- combine(x, one, m)     # Treat odd `d`
    return(x)
  }
  one <- c(log.p*(0:m), rep(-Inf, n-m))      # Reduction modulo x^(m+1)
  double <- function(x, m) combine(x, x, m)
  combine <- function(x, y, m) {             # The Binomial Theorem
    z <- sapply(1:length(x), function(n) {   # Need all powers 0..n
      z <- x[1:n] + lchoose(n-1, 1:n-1) + y[n:1]
      z.max <- max(z)
      log(sum(exp(z - z.max), na.rm=TRUE)) + z.max
    })
    return(z)
  }
  x <- exp(f(n, m, d)); names(x) <- 0:n
  return(x)
}

Cevap şu şekilde elde edilir:

print(tmultinom(100,20,6), digits=15)

,267747907805267

— whuber
kaynak

4

Rastgele örnekleme yöntemi

Bir milyon kez 100 die atar çoğaltma R bu kodu koştu:

y <- çoğalt (1000000, tümü (tablo (örnek (1: 6, boyut = 100, değiştir = DOĞRU)) <= 20))

Tüm yüzler 20 kattan daha az veya eşitse, çoğaltma işlevi içindeki kodun çıkışı doğrudur. y, 1 milyon doğru veya yanlış değeri olan bir vektördür.

Toplam hayır. y cinsinden gerçek değerlerin 1 milyona bölünmesi, arzu ettiğiniz olasılığa yaklaşık olarak eşit olmalıdır. Benim durumumda 266872/1000000 idi, bu da% 26,6 civarında bir olasılık olduğunu gösteriyor

— vaibhav
kaynak

3

— OP'ye

1

Bir düzenleme notu yerleştirmek bazen tüm yazıyı düzenlemekten daha az açık olduğu için yazıyı düzenledim (ikinci kez). Yazıdaki tarihin izini tutmanın yararlı olduğunu düşünüyorsanız, geri dönmekten çekinmeyin. meta.stackexchange.com/questions/127639/…

— Sextus Empiricus

4

Kaba kuvvet hesaplaması

Bu kod dizüstü bilgisayarımda birkaç saniye sürüyor

total = 0
pb <- txtProgressBar(min = 0, max = 20^2, style = 3)
for (i in 0:20) {
  for (j in 0:20) {
    for (k in 0:20) { 
      for (l in 0:20) {
        for (m in 0:20) {
          n = 100-sum(i,j,k,l,m)
          if (n<=20) {
            total = total+dmultinom(c(i,j,k,l,m,n),100,prob=rep(1/6,6))
          }
        }
      }
    }
    setTxtProgressBar(pb, i*20+j) # update progression bar            
  }
}
total

çıktı: 0.2677479

Ancak yine de, bu hesaplamaların çoğunu yapmak veya daha yüksek değerler kullanmak veya daha zarif bir yöntem elde etmek için daha doğrudan bir yöntem bulmak ilginç olabilir.

En azından bu hesaplama, diğer (daha karmaşık) yöntemleri kontrol etmek için basit olarak hesaplanmış ancak geçerli bir sayı verir.

— Sextus Empiricus
kaynak

100 kez 20 yüzden fazla görünen yüz yok rulo

Çözüm açıklaması

Uygulamalar

kod

Rastgele örnekleme yöntemi

Kaba kuvvet hesaplaması