Binom rasgele değişken için tahmin aralığı

Binom rasgele değişkeni için tahmin aralığı formülü (yaklaşık veya kesin) nedir?

Varsayalım $Y \sim \mathsf{Binom}(n, p)$ ve gözlemlediğimiz $y$ (çekilir $Y$ ). $n$ bilinmektedir.

Hedefimiz yeni bir beraberlik için% 95 tahmin aralığı elde etmektir $Y$ .

Nokta tahmini $n\hat{p}$ , $\hat{p}=\frac{y}{n}$ . A güven aralığı basittir, ama bir tahmin aralığı için bir formül bulamıyor. Bilseydik(ziyade sonra% 95 tahmin aralığı sadece binom ait quantiles bulma içerir. Göz ardı ettiğim açık bir şey var mı? $\hat{p}$ $Y$ $p$ $\hat{p}$

confidence-interval binomial prediction-interval

— Statseeker
kaynak

Bkz . Kestirimci çıkarım için hangi Bayesci olmayan yöntemler vardır? . Bu durumda, pivot kullanan yöntem mevcut değildir (sanmıyorum), ancak tahmin olasılığından birini kullanabilirsiniz. Veya elbette, Bayesci bir yaklaşım.

— Scortchi - Monica'yı eski durumuna döndürün

Merhaba millet, dile getirilen endişeleri çözmek için biraz zaman ayırmak istiyorum. - p için güven konusunda: Bununla ilgilenmiyorum. - tahminlerin dağılımın% 95'i ile ilgili olarak: evet, bağlamdan bağımsız olarak tam olarak tahmin aralıklarının ne olduğu (regresyonda, güven aralıkları CLT'ye bağlı olarak normal hataları varsaymanız gerekir - evet, bozuk parayı çevirmek doğru, bu sorunu zorlaştıran şey şu ki "p" değil, bir tahminimiz var.

— Statseeker

@Addison G. Hahn ve W. Meeker'in İstatistiksel Aralıklarını okuyun. Güven aralıkları, tahmin aralıkları, tolerans aralıkları ve Bayes güvenilir aralıkları arasındaki farkı açıklar. % 95 tahmin aralığı dağılımın% 95'ini içermez. En sık aralıkların ne yaptığını yapar. Tekrar tekrar B (n, p) 'den numune alıp p için% 95 tahmin aralığı üretmek için her seferinde aynı yöntemi kullanırsanız, tahmin aralıklarının% 95'i p'nin gerçek değerini içerecektir. Dağıtımın% 95'ini kapsamak istiyorsanız, bir tolerans aralığı oluşturun.

— Michael R.Chickick

Tolerans aralıkları dağılımın bir yüzdesini kapsar. Dağılımın% 90'ı için% 95 tolerans aralığı için işlemi birçok kez tekrarlar ve her seferinde aralığı oluşturmak için aynı yöntemi kullanırsınız, daha sonra vakaların yaklaşık% 95'inde dağılımın en az% 90'ı aralığa düşer ve dağılımın% 90'ından daha az zamanın% 5'i aralıkta yer alacaktır.

— Michael R.Chernick

Lawless & Fredette (2005), "Sıklık Tahmin Aralıkları ve Öngörücü Dağılımlar", Biometrika , 92 , 3 verdiğim bağlantıya ek olarak başka iyi bir referanstır.

— Scortchi - Monica'yı eski durumuna döndürün

Tamam, deneyelim. İki cevap vereceğim - bence basit ve doğal olan Bayesci ve olası sık sık olanlardan biri.

Bayes çözümü

Biz bir beta önceden kabul , ı, e., , beta-binom modeli arka dağılımı da bir Beta dağılımı olduğu anlamına gelir konjügat, çünkü parametreleri , (kullanıyorum başarıların sayısını göstermek için , yerine çalışmalarda ). Böylece, çıkarım büyük ölçüde basitleştirilmiştir. Şimdi, olası değerleri hakkında önceden bilginiz varsa, $p$ $p \sim Beta(\alpha,\beta)$ $\hat{\alpha}=\alpha+k,\hat{\beta}=\beta+n-k$ $k$ $n$ $y$ , ve değerlerini ayarlamak için kullanabilirsiniz, yani Beta sürümünüzü önceden tanımlamak için, aksi takdirde veya diğer bilgilendirici olmayan önceliklerle dahaönce tek tip (bilgilendirici olmayan) olduğunu varsayabilirsiniz(örneğinburaya bakın)). Her durumda, posteriorunuz $p$ $\alpha$ $\beta$ $\alpha=\beta=1$

$Pr(p|n,k)=Beta(\alpha+k,\beta+n-k)$

Bayesci çıkarımda önemli olan tek şey arka olasılıktır, yani bunu bir kez bildiğinizde, modelinizdeki diğer tüm miktarlar için çıkarımlar yapabilirsiniz. Gözlenebilir : özellikle, gibi yeni sonuçların bir vektörüne çıkarım yapmak istiyorsunuz , burada mutlaka eşit değildir . Özellikle, her biri için , biz tam olarak sahip olma olasılığını hesaplamak istediğiniz sonraki başarılarını var olduğu göz önüne alındığında, denemeler $y$ $\mathbf{y}=y_1,\dots,y_m$ $m$ $n$ $j=0,\dots,m$ $j$ $m$ $k$ önceki denemedeki başarılar ; posterior prediktif kitle fonksiyonu: $n$

Bununla birlikte, için Binom modelimiz , belirli bir değere sahip olan bağlı olarak , denemelerinde başarı elde etme olasılığının geçmiş sonuçlara bağlı olmadığı anlamına gelir: $Y$ $p$ $j$ $m$

$f(j|m,p)=\binom{j}{m} p^j(1-p)^j$

Böylece ifade

$Pr(j|m,n,k)=\int_0^1 \binom{j}{m} p^j(1-p)^j Pr(p|n,k)dp=\int_0^1 \binom{j}{m} p^j(1-p)^j Beta(\alpha+k,\beta+n-k)dp$

Bu integralin sonucu Beta-Binom dağılımı olarak bilinen iyi bir dağılımdır: pasajları atlayarak korkunç ifadeyi alıyoruz

$Pr(j|m,n,k)=\frac{m!}{j!(m-j)!}\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+k)\Gamma(\beta+n-k)}\frac{\Gamma(\alpha+k+j)\Gamma(\beta+n+m-k-j)}{\Gamma(\alpha+\beta+n+m)}$

Kuadratik kayıp verildiğinde için nokta tahminimiz elbette bu dağılımın ortalamasıdır, yani, $j$

$\mu=\frac{m(\alpha+k)}{(\alpha+\beta+n)}$

Şimdi bir tahmin aralığı arayalım. Bu ayrık bir dağıtım olduğundan, için kapalı bir form ifademiz yoktur , öyle ki . Bunun nedeni, bir kantili nasıl tanımladığınıza bağlı olarak, ayrık bir dağıtım için kantil işlevinin bir işlev olmaması veya süreksiz bir işlev olmasıdır. Ama bu büyük bir sorun değil: küçük , olasılıklarını ve buradan bulun . $[j_1,j_2]$ $Pr(j_1\leq j \leq j_2)= 0.95$ $m$ $m$ $Pr(j=0|m,n,k),Pr(j\leq 1|m,n,k),\dots,Pr(j \leq m-1|m,n,k)$ $j_1,j_2$

$Pr(j_1\leq j \leq j_2)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\geq 0.95$

Tabii ki birden fazla çift bulacaksınız, bu yüzden ideal olan en küçük yukarıdakiler tatmin olur. Bunu not et $[j_1,j_2]$

$Pr(j=0|m,n,k)=p_0,Pr(j\leq 1|m,n,k)=p_1,\dots,Pr(j \leq m-1|m,n,k)=p_{m-1}$

sadece Beta-Binom dağılımının CMF (Kümülatif Kütle Fonksiyonu) değerleridir ve bu nedenle kapalı bir form ifadesi vardır , ancak bu genelleştirilmiş hipergeometrik fonksiyon açısındandır ve bu nedenle oldukça karmaşıktır. Sadece R paketini kurmak ve Beta-Binom dağılımının CMF'sini hesaplamak için extraDistrçağrı pbbinomyapmayı tercih ederim . Özellikle, olasılıklarının tümünü tek hesaplamak istiyorsanız , şunu yazın: $p_0,\dots,p_{m-1}$

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

burada alphave betaönceden Beta sürümünüzün parametrelerinin değerleri, yani ve ( önce tekdüze bir ünite kullanıyorsanız 1 ). Elbette, R'nin Beta-Binom dağılımı için bir kantil işlev sağlaması çok daha kolay olurdu, ancak maalesef öyle değil. $\alpha$ $\beta$ $p$

Bayes çözümü ile pratik örnek

Let , (100 çalışmalarda bu şekilde başlangıçta görülen 70 başarılar). Bir sonraki denemesinde başarı sayısı için bir nokta tahmini ve% 95 tahmin aralığı istiyoruz . Sonra $n=100$ $k=70$ $j$ $m=20$

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

burada : öncesi bir üniforma varsaydım : özel uygulamanız için önceki bilgilere bağlı olarak, bu önceden iyi olabilir veya olmayabilir. Böylece $p$

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

Açıkçası için tamsayı olmayan bir tahmin anlamlı değildir, bu yüzden en yakın tam sayıya yuvarlanabiliriz (14). Ardından, tahmin aralığı için: $j$

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

Olasılıklar

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

Olasılıkları interval eşit-kuyruk için, bizim istediğimiz en küçük öyle ki ve en büyük öyle ki . Bu şekilde, sahip olacağız $j_2$ $Pr(j\leq j_2|m,n,k)\ge 0.975$ $j_1$ $Pr(j < j_1|m,n,k)=Pr(j \le j_1-1|m,n,k)\le 0.025$

$Pr(j_1\leq j \leq j_2|m,n,k)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\ge 0.975-0.025=0.95$

Dolayısıyla, yukarıdaki olasılıklara bakarak ve olduğunu . Bu Bayesci tahmin aralığının olasılığı 0.977'den daha büyük olan 0.9778494'tür. daha kısa aralıklar bulabiliriz , ancak bu durumda kuyruk olasılıkları için iki eşitsizlikten en az biri karşılanmayacaktır. $j_2=18$ $j_1=9$ $Pr(j_1\leq j \leq j_2|m,n,k)\ge 0.95$

Sık çözüm

Ben Krishnamoorthy ve Peng, 2011 tedavisini takip edeceğim . Let ve , bağımsız bir şekilde Binominally dağıtılabilir. gözlemine dayanarak için tahmin aralığı istiyoruz . Başka bir deyişle, ararız: $Y\sim Binom(m,p)$ $X\sim Binom(n,p)$ $1-2\alpha-$ $Y$ $X$ $I=[L(X;n,m,\alpha),U(X;n,m,\alpha)]$

$Pr_{X,Y}(Y\in I)=Pr_{X,Y}(L(X;n,m,\alpha)\leq Y\leq U(X;n,m,\alpha)]\geq 1-2\alpha$

" ", ayrı bir rastgele değişkenle uğraştığımızdan kaynaklanmaktadır ve bu nedenle tam kapsama almayı bekleyemeyiz ... ama her zaman en azından nominal kapsam, dolayısıyla muhafazakar bir aralık. Şimdi, koşullu dağılımı kanıtlanabilirse verilen numune miktarı ile hipergeometrik olup nüfus başarılı sonuç, sayı ve popülasyon boyutu . Böylece şartlı pmf $\geq 1-2\alpha$ $X$ $X+Y=k+j=s$ $s$ $n$ $n+m$

$Pr(X=k|X+Y=s,n,n+m)=\frac{\binom{n}{k}\binom{m}{s-k}}{\binom{m+n}{s}}$

Koşullu CDF verilen ve böylece bir $X$ $X+Y=s$

$Pr(X\leq k|s,n,n+m)=H(k;s,n,n+m)=\sum_{i=0}^k\frac{\binom{n}{i}\binom{m}{s-i}}{\binom{m+n}{s}}$

Bu CDF ile ilgili ilk harika şey, bilmediğimiz bağlı olmamasıdır. İkinci harika şey, PI'mızı kolayca bulmasına izin vermesidir: aslında, X'in bir değerini gözlemlediysek , alt tahmin sınırı, en küçük tamsayı . $p$ $k$ $1-\alpha$ $L$

$Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$

buna karşılık, üst tahmin sınırı en büyük tamsayıdır; $1-\alpha$

$Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$

Bu nedenle, , kapsamı için en az için bir tahmin aralığıdır . 0 veya 1'e yakın olduğunda , bu aralığın büyük , için bile muhafazakar olduğunu , yani kapsama alanının oldukça büyük olduğunu unutmayın . $[L,U]$ $Y$ $1-2\alpha$ $p$ $n$ $m$ $1-2\alpha$

Frequentist çözümü ile pratik örnek

Öncekiyle aynı ayardır, ancak ve belirtmemize gerek yoktur (Frequentist çerçevesinde hiç öncelik yoktur): $\alpha$ $\beta$

n <- 100
k <- 70
m <- 20

Puan tahmini şimdi başarı olasılığı olasılığı için MLE tahmini kullanılarak elde edilmektedir , bu da denemelerinde başarı sayısı için aşağıdaki tahminlere yol açmaktadır: : $\hat{p}=\frac{k}{n}$ $m$

frequentist_point_estimate <- m * k/n #14

Tahmin aralığı için prosedür biraz farklıdır. Biz en büyük aramaya , öyle ki , böylece en yukarıdaki ifadeyi hesaplamak izin içindeki tüm için : $U$ $Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$ $U$ $[0,m]$

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

En büyük , olasılık hala 0.025'ten büyük olacak şekilde görebiliriz. $U$

jvec[which.min(probabilities > 0.025) - 1] # 18

Bayesci yaklaşım için olduğu gibi. alt sınırı tahmini , şekilde en küçük tamsayıdır. , Böylece $L$ $Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

Bu nedenle, sık "kesin" tahmin aralığımız . $[L,U]=[8,18]$

— DeltaIV
kaynak