Binom rasgele değişken için tahmin aralığı


14

Binom rasgele değişkeni için tahmin aralığı formülü (yaklaşık veya kesin) nedir?

Varsayalım YBinom(n,p) ve gözlemlediğimiz y (çekilir Y ). n bilinmektedir.

Hedefimiz yeni bir beraberlik için% 95 tahmin aralığı elde etmektir Y.

Nokta tahmini np^ , p = yp^=yn . A güven aralığı p basittir, ama bir tahmin aralığı için bir formül bulamıyorY. Bilseydikp(ziyade p ), sonra% 95 tahmin aralığı sadece binom ait quantiles bulma içerir. Göz ardı ettiğim açık bir şey var mı?p^Ypp^


1
Bkz . Kestirimci çıkarım için hangi Bayesci olmayan yöntemler vardır? . Bu durumda, pivot kullanan yöntem mevcut değildir (sanmıyorum), ancak tahmin olasılığından birini kullanabilirsiniz. Veya elbette, Bayesci bir yaklaşım.
Scortchi - Monica'yı eski durumuna döndürün

1
Merhaba millet, dile getirilen endişeleri çözmek için biraz zaman ayırmak istiyorum. - p için güven konusunda: Bununla ilgilenmiyorum. - tahminlerin dağılımın% 95'i ile ilgili olarak: evet, bağlamdan bağımsız olarak tam olarak tahmin aralıklarının ne olduğu (regresyonda, güven aralıkları CLT'ye bağlı olarak normal hataları varsaymanız gerekir - evet, bozuk parayı çevirmek doğru, bu sorunu zorlaştıran şey şu ki "p" değil, bir tahminimiz var.
Statseeker

3
@Addison G. Hahn ve W. Meeker'in İstatistiksel Aralıklarını okuyun. Güven aralıkları, tahmin aralıkları, tolerans aralıkları ve Bayes güvenilir aralıkları arasındaki farkı açıklar. % 95 tahmin aralığı dağılımın% 95'ini içermez. En sık aralıkların ne yaptığını yapar. Tekrar tekrar B (n, p) 'den numune alıp p için% 95 tahmin aralığı üretmek için her seferinde aynı yöntemi kullanırsanız, tahmin aralıklarının% 95'i p'nin gerçek değerini içerecektir. Dağıtımın% 95'ini kapsamak istiyorsanız, bir tolerans aralığı oluşturun.
Michael R.Chickick

Tolerans aralıkları dağılımın bir yüzdesini kapsar. Dağılımın% 90'ı için% 95 tolerans aralığı için işlemi birçok kez tekrarlar ve her seferinde aralığı oluşturmak için aynı yöntemi kullanırsınız, daha sonra vakaların yaklaşık% 95'inde dağılımın en az% 90'ı aralığa düşer ve dağılımın% 90'ından daha az zamanın% 5'i aralıkta yer alacaktır.
Michael R.Chernick

Yanıtlar:


24

Tamam, deneyelim. İki cevap vereceğim - bence basit ve doğal olan Bayesci ve olası sık sık olanlardan biri.

Bayes çözümü

Biz bir beta önceden kabul , ı, e., S ~ B e t bir ( α , p ) , beta-binom modeli arka dağılımı da bir Beta dağılımı olduğu anlamına gelir konjügat, çünkü parametreleri α = α + k , β = β + n - k , (kullanıyorum k başarıların sayısını göstermek için , n , yerine çalışmalarda y ). Böylece, çıkarım büyük ölçüde basitleştirilmiştir. Şimdi, olası değerleri hakkında önceden bilginiz varsa,ppBeta(α,β)α^=α+k,β^=β+nkkny , α ve β değerlerini ayarlamak için kullanabilirsiniz, yani Beta sürümünüzü önceden tanımlamak için, aksi takdirde α = β = 1 veya diğer bilgilendirici olmayan önceliklerle dahaönce tek tip (bilgilendirici olmayan) olduğunu varsayabilirsiniz(örneğinburaya bakın)). Her durumda, posteriorunuzpαβα=β=1

Pr(p|n,k)=Beta(α+k,β+nk)

Bayesci çıkarımda önemli olan tek şey arka olasılıktır, yani bunu bir kez bildiğinizde, modelinizdeki diğer tüm miktarlar için çıkarımlar yapabilirsiniz. Gözlenebilir : özellikle, y = y 1 , , y m gibi yeni sonuçların bir vektörüne çıkarım yapmak istiyorsunuz , burada m mutlaka n'ye eşit değildir . Özellikle, her biri için j = 0 , ... , m , biz tam olarak sahip olma olasılığını hesaplamak istediğiniz j sonraki başarılarını m var olduğu göz önüne alındığında, denemeler kyy=y1,,ymmnj=0,,mjmkönceki denemedeki başarılar ; posterior prediktif kitle fonksiyonu:n

Pr(j|m,y)=Pr(j|m,n,k)=01Pr(j,p|m,n,k)dp=01Pr(j|p,m,n,k)Pr(p|n,k)dp

Bununla birlikte, için Binom modelimiz , belirli bir değere sahip olan p'ye bağlı olarak , m denemelerinde j başarı elde etme olasılığının geçmiş sonuçlara bağlı olmadığı anlamına gelir:Ypjm

f(j|m,p)=(jm)pj(1p)j

Böylece ifade

Pr(j|m,n,k)=01(jm)pj(1p)jPr(p|n,k)dp=01(jm)pj(1p)jBeta(α+k,β+nk)dp

Bu integralin sonucu Beta-Binom dağılımı olarak bilinen iyi bir dağılımdır: pasajları atlayarak korkunç ifadeyi alıyoruz

Pr(j|m,n,k)=m!j!(mj)!Γ(α+β+n)Γ(α+k)Γ(β+nk)Γ(α+k+j)Γ(β+n+mkj)Γ(α+β+n+m)

Kuadratik kayıp verildiğinde için nokta tahminimiz elbette bu dağılımın ortalamasıdır, yani,j

μ=m(α+k)(α+β+n)

Şimdi bir tahmin aralığı arayalım. Bu ayrık bir dağıtım olduğundan, için kapalı bir form ifademiz yoktur , öyle ki . Bunun nedeni, bir kantili nasıl tanımladığınıza bağlı olarak, ayrık bir dağıtım için kantil işlevinin bir işlev olmaması veya süreksiz bir işlev olmasıdır. Ama bu büyük bir sorun değil: küçük , olasılıklarını ve buradan bulun .P r ( j 1j j 2 ) = 0,95 m m P r ( j = 0 | m , n , k ) , P r ( j 1 | m , n , k ) , , P r ( j m - 1 |[j1,j2]Pr(j1jj2)=0.95mmj 1 , j 2Pr(j=0|m,n,k),Pr(j1|m,n,k),,Pr(jm1|m,n,k)j1,j2

Pr(j1jj2)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.95

Tabii ki birden fazla çift bulacaksınız, bu yüzden ideal olan en küçük yukarıdakiler tatmin olur. Bunu not et[j1,j2]

Pr(j=0|m,n,k)=p0,Pr(j1|m,n,k)=p1,,Pr(jm1|m,n,k)=pm1

sadece Beta-Binom dağılımının CMF (Kümülatif Kütle Fonksiyonu) değerleridir ve bu nedenle kapalı bir form ifadesi vardır , ancak bu genelleştirilmiş hipergeometrik fonksiyon açısındandır ve bu nedenle oldukça karmaşıktır. Sadece R paketini kurmak ve Beta-Binom dağılımının CMF'sini hesaplamak için extraDistrçağrı pbbinomyapmayı tercih ederim . Özellikle, olasılıklarının tümünü tek hesaplamak istiyorsanız , şunu yazın:p0,,pm1

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

burada alphave betaönceden Beta sürümünüzün parametrelerinin değerleri, yani ve ( önce tekdüze bir ünite kullanıyorsanız 1 ). Elbette, R'nin Beta-Binom dağılımı için bir kantil işlev sağlaması çok daha kolay olurdu, ancak maalesef öyle değil.αβp

Bayes çözümü ile pratik örnek

Let , (100 çalışmalarda bu şekilde başlangıçta görülen 70 başarılar). Bir sonraki denemesinde başarı sayısı için bir nokta tahmini ve% 95 tahmin aralığı istiyoruz . Sonran=100k=70jm=20

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

burada : öncesi bir üniforma varsaydım : özel uygulamanız için önceki bilgilere bağlı olarak, bu önceden iyi olabilir veya olmayabilir. Böylecep

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

Açıkçası için tamsayı olmayan bir tahmin anlamlı değildir, bu yüzden en yakın tam sayıya yuvarlanabiliriz (14). Ardından, tahmin aralığı için:j

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

Olasılıklar

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

Olasılıkları interval eşit-kuyruk için, bizim istediğimiz en küçük öyle ki ve en büyük öyle ki . Bu şekilde, sahip olacağızj2Pr(jj2|m,n,k)0.975j1Pr(j<j1|m,n,k)=Pr(jj11|m,n,k)0.025

Pr(j1jj2|m,n,k)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.9750.025=0.95

Dolayısıyla, yukarıdaki olasılıklara bakarak ve olduğunu . Bu Bayesci tahmin aralığının olasılığı 0.977'den daha büyük olan 0.9778494'tür. daha kısa aralıklar bulabiliriz , ancak bu durumda kuyruk olasılıkları için iki eşitsizlikten en az biri karşılanmayacaktır.j2=18j1=9Pr(j1jj2|m,n,k)0.95

Sık çözüm

Ben Krishnamoorthy ve Peng, 2011 tedavisini takip edeceğim . Let ve , bağımsız bir şekilde Binominally dağıtılabilir. gözlemine dayanarak için tahmin aralığı istiyoruz . Başka bir deyişle, ararız:YBinom(m,p)XBinom(n,p)12αYXI=[L(X;n,m,α),U(X;n,m,α)]

PrX,Y(YI)=PrX,Y(L(X;n,m,α)YU(X;n,m,α)]12α

" ", ayrı bir rastgele değişkenle uğraştığımızdan kaynaklanmaktadır ve bu nedenle tam kapsama almayı bekleyemeyiz ... ama her zaman en azından nominal kapsam, dolayısıyla muhafazakar bir aralık. Şimdi, koşullu dağılımı kanıtlanabilirse verilen numune miktarı ile hipergeometrik olup nüfus başarılı sonuç, sayı ve popülasyon boyutu . Böylece şartlı pmf12αXX+Y=k+j=ssnn+m

Pr(X=k|X+Y=s,n,n+m)=(nk)(msk)(m+ns)

Koşullu CDF verilen ve böylece birXX+Y=s

Pr(Xk|s,n,n+m)=H(k;s,n,n+m)=i=0k(ni)(msi)(m+ns)

Bu CDF ile ilgili ilk harika şey, bilmediğimiz bağlı olmamasıdır. İkinci harika şey, PI'mızı kolayca bulmasına izin vermesidir: aslında, X'in bir değerini gözlemlediysek , alt tahmin sınırı, en küçük tamsayı .pk1αL

Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

buna karşılık, üst tahmin sınırı en büyük tamsayıdır;1α

Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α

Bu nedenle, , kapsamı için en az için bir tahmin aralığıdır . 0 veya 1'e yakın olduğunda , bu aralığın büyük , için bile muhafazakar olduğunu , yani kapsama alanının oldukça büyük olduğunu unutmayın .[L,U]Y12αpnm12α

Frequentist çözümü ile pratik örnek

Öncekiyle aynı ayardır, ancak ve belirtmemize gerek yoktur (Frequentist çerçevesinde hiç öncelik yoktur):αβ

n <- 100
k <- 70
m <- 20

Puan tahmini şimdi başarı olasılığı olasılığı için MLE tahmini kullanılarak elde edilmektedir , bu da denemelerinde başarı sayısı için aşağıdaki tahminlere yol açmaktadır: :p^=knm

frequentist_point_estimate <- m * k/n #14

Tahmin aralığı için prosedür biraz farklıdır. Biz en büyük aramaya , öyle ki , böylece en yukarıdaki ifadeyi hesaplamak izin içindeki tüm için :UPr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>αU[0,m]

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

En büyük , olasılık hala 0.025'ten büyük olacak şekilde görebiliriz.U

jvec[which.min(probabilities > 0.025) - 1] # 18

Bayesci yaklaşım için olduğu gibi. alt sınırı tahmini , şekilde en küçük tamsayıdır. , BöyleceP r ( X k | k + L , n , n + m ) = 1 - H ( k - 1 ; k + L , n , n + m ) > αLPr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

Bu nedenle, sık "kesin" tahmin aralığımız .[L,U]=[8,18]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.