Binom güven aralığı tahmini - neden simetrik değil?


30

Binom oranının güven aralıklarını tahmin etmek için aşağıdaki r kodunu kullandım, çünkü alıcının karakteristik eğri tasarımlarını bir popülasyondaki saptamaya bakarak tasarlarken bunun bir "güç hesaplamasının" yerini aldığını biliyorum.

n, 150'dir ve hastalığın popülasyonda% 25 oranında yaygın olduğuna inanıyoruz. % 75 hassasiyet ve% 90 özgüllük için değerleri hesapladım (çünkü insanların yaptığı gibi).

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

Bu siteyi de ziyaret ettim:

http://statpages.org/confint.html

Binom güven aralıklarını hesaplayan bir java sayfasıdır ve aynı cevabı verir.

Her neyse, bu uzun kurulumdan sonra, güven aralıklarının neden simetrik olmadığını, örneğin hassasiyetin ne olduğunu sormak istiyorum.

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

Bu aptalca bir soru ise üzgünüm, ama baktığım her yer simetrik olacaklarını gösteriyor gibi görünüyor ve bir meslektaşım onların da olacağını düşünüyor gibi görünüyor.

Yanıtlar:


20

Simetrik olduklarına inanılıyor çünkü oldukça sık normal bir yaklaşım kullanılıyor. Bu, p'nin 0,5 civarında olması durumunda yeterince çalışır. binom.testdiğer yandan, F dağılımına dayanan “kesin” Clopper-Pearson aralıklarını bildirir (her iki yaklaşımın tam formülleri için buraya bakın ). Eğer Clopper-Pearson aralığını R'de uygularsak, bunun gibi bir şey olurdu ( nota bakınız ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

Hem linkte hem de uygulamada üst ve alt limit formülünün tamamen farklı olduğunu görüyorsunuz. Simetrik güven aralığının tek örneği p = 0.5 olduğunda. Bağlantıdaki formülleri kullanarak ve bu durumda kendini nasıl ortaya çıkardığını bulmak çok kolay.n=2×x

Kişisel olarak lojistik bir yaklaşıma dayanan güven aralıklarına bakmayı daha iyi anladım. Binom verileri genellikle şu şekilde tanımlanan bir logit link işlevi kullanılarak modellenir:

logit(x)=log(x1x)

Bu link fonksiyonu lojistik regresyondaki hata terimini "normal dağılıma" eşler. " Sonuç olarak, lojistik çerçevedeki güven aralıkları, klasik doğrusal regresyon çerçevesindeki gibi, logit değerleri etrafında simetriktir. Logit dönüşümü, tam olarak normallik esaslı teorinin lineer regresyon çevresinde kullanılmasına izin vermek için kullanılır.

Ters dönüşümü yaptıktan sonra:

logit1(x)=ex1+ex

Yine asimetrik bir aralık alıyorsunuz. Şimdi bu güven aralıkları aslında önyargılı. Onların kapsamı, özellikle binom dağılımının sınırları dahilinde beklediğiniz gibi değil. Yine de, bir örnek olarak, bir binom dağılımının asimetrik güven aralıklarına sahip olmasının neden mantıklı olduğunu gösteriyorlar.

R'deki bir örnek:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

not : Aslında, R beta dağılımını kullanır, ancak bu tamamen eşdeğerdir ve hesaplama açısından biraz daha verimlidir. Bu nedenle R'deki uygulama burada gösterdiklerimden farklı, ancak tam olarak aynı sonucu veriyor.


2
Gerçekten, logit "binom dağılımını normal dağılımda dönüştürür" demek mi istediniz?
whuber

@whuber: Formülün güzel yakalamak ve formülasyonun güzel yakalamak. Neredeyse değil. Lojistik regresyondaki hataların normal dağılışı takip etmesini sağlar. Düzeltme için teşekkürler.
Joris Meys

Sadece kısa bir teknik not olarak, "arcsine" dönüşümü, normallik ile lojistik dönüşümden daha hızlı yakınlaşmaya sahip olan dönüşümdür. Y = 2 olarak ayarla (buradaX, "başarı"sayısıdırveN, deneme sayısıdır) ve "delta yöntemi" ileYvaryansınınyaklaşık olarak sabit olduğunu (veY'denbağımsızolarak, olması gerektiği gibi) gösterebilirsiniz. normal dağılım). Y=2πarcsinXNXNYY
olasılık

"Kesin olasılıklar" için sağladığınız bağlantı koptu. Sende başka var mı?
S. Kolassa - Monica

@StephanKolassa Clopper Pearson formüllerini burada da bulabilirsiniz: en.wikipedia.org/wiki/…
Joris Meys


9

p

(p^p)/p(1p)=±zα/2

Neyse, üçünü de R ile alabilirsiniz:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

"Wilson" yönteminin, Yates 'in sürekliliği düzeltmesi olmadan prop.test tarafından kullanılan aynı güven aralığı olduğunu unutmayın:

prop.test(29, 38, correct = FALSE)

Laura Thompson’un, Agresti’nin bu konuların ayrıntılı bir şekilde tartışıldığı Kategori Veri Analizine eşlik eden ücretsiz SPLUS + R kılavuzu için buraya bakınız .


1
(+1) Laura'nın ders kitabından alıntı yaptığın ve Wilson'un CI'leri hakkındaki bu bilgileri tamamladığına sevindim.
chl

2
Teşekkürler. @Joris'in referans aldığı makalede Wilson aralığının tartışıldığını belirtmek isterim.

9

Orada olan simetrik güven aralıkları Binom dağılımı için: asimetri önce bahsedilen tüm sebeplerden rağmen bize zorla değildir. Simetrik aralıklar genellikle

  1. Her ne kadar sayısal olarak simetrik olsalar da olasılıkta simetrik değillerdir : yani tek kuyruklu kümeleri birbirinden farklıdır. Bu - Binom dağılımının olası asimetrisinin gerekli bir sonucu - maddenin özüdür.

  2. @Rob Hyndman'ın işaret ettiği gibi, çoğu zaman bir uç nokta gerçekçi değildir (0'dan küçük veya 1'den büyük).

Bunu söylerken, sayısal olarak simetrik CI'lerin bazı durumlarda olasılıksal olarak simetrik olanlardan daha kısa olma eğilimi gibi bazı iyi özelliklere sahip olabileceğinden şüpheleniyorum.


p^=k/n

@cb Bunu takip etmiyorum. Birincisi, en kısa bir CI'nin her iki uçta da eşit yoğunlukta olması gerekmez. İkincisi, "yok" hakkında yorum yapmak bana mantıklı gelmiyor: "yok" ne demek?
whuber

1
en kısa CI. Belirli bir kapsama alanı için en kısa CI'yi hesaplamak için, maksimum yoğunluktan başlayıp yoğunluğun yüksek olduğu tarafa kısa bir adım genişletirim. Orada en fazla güvene sahip oluyorum (bu kısa adım için). İstenilen alana (kapsama alanı) gelene kadar ci'yi tekrar tekrar büyütürüm. Adımlarım küçükse (sonsuz) her iki taraftaki yoğunluk aynı olacaktır (yaklaşık). Bu stratejide bir hata mı yaptım?
cbeleites, Monica,

pp^=4/5=0.8pp<70%

1
p=0.8k{3,4,5}n=5pnkpk=4n=5Pr(p|n=5,k=4)p[0,1]Pr(k|n,p)p

6

p01np0.5


2

Bir süre geçtiğini biliyorum, ama burada çalacağımı düşündüm. N ve p verildiğinde, doğrudan binom dağılımını kullanarak belirli sayıda başarı olasılığını hesaplamak kolaydır. Daha sonra simetrik olmadığını görmek için dağılım incelenebilir. Büyük np ve büyük n (1-p) için simetriye yaklaşacaktır.

Belirli bir CI'yi hesaplamak için kuyruklarda olasılıklar birikebilir. Dağılımın ayrık doğası göz önüne alındığında, kuyrukta belirli bir olasılık bulunması (örneğin,% 95 CI için% 2,5), başarı sayısı arasında enterpolasyon gerektirecektir. Bu yöntemle, CI'lar yaklaşık bir değer olmadan (gerekli enterpolasyon dışında) doğrudan hesaplanabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.