Güven aralığı hakkında karışık

Güven aralığı kavramı hakkında kafam karıştı. Özellikle, bilinen ile bir Gauss değişkeni olduğunu ve ortalamanın güven düzeyi ile alt sınır ile . $X \sim N(\mu, \sigma)$ $\sigma$ $\mu_L$ $95\%$

Deneyi kez yapacağım ve , , , , . $5$ $X_1$ $X_2$ $X_3$ $X_4$ $X_5$

Seçenek 1: Her örneği ayrı ayrı ele ve her için . Ve sonra bu 5 ' dan gerçek alt sınırı hesaplamak için bir yol (nasıl bilmiyorum) var sanırım . $\mu_L = X_i - \sigma z$ $X_i$ $\mu_L$

Seçenek 2: Öte yandan, eğer , hesaplayabilirim . ( normal olduğunu varsayarsak , t-stat'i de kullanabiliriz.) $T = (X_1+X_2+X_3+X_4+X_5)/5$ $\mu_L = T - \sigma/\sqrt{5}z$ $T$

örneğe dayalı olarak alt sınırı hesaplamak için seçenek 2'den başka bir yöntem var mı ? Seçenek 1 için, hesaplanan 5 alt sınırı temel alarak alt sınırı hesaplamanın bir yolu var mı? $5$

confidence-interval

— calbear
kaynak

Bu harika bir soru çünkü alternatif prosedürlerin olasılığını araştırıyor ve bir prosedürün neden ve nasıl diğerinden daha üstün olabileceğini düşünmemizi istiyor.

Kısa cevap, ortalama için daha düşük bir güven limiti elde etmek için bir prosedür tasarlamanın sonsuz sayıda yolu olduğudur, ancak bunların bazıları daha iyidir ve bazıları daha kötüdür (anlamlı ve iyi tanımlanmış bir anlamda). Seçenek 2 mükemmel bir prosedürdür, çünkü onu kullanan bir kişinin karşılaştırılabilir kalitede sonuçlar elde etmek için Seçenek 1'i kullanan bir kişinin yarısından daha az veri toplaması gerekir. Verilerin yarısı genellikle bütçenin yarısı ve yarısı anlamına gelir, bu nedenle önemli ve ekonomik açıdan önemli bir farktan bahsediyoruz. Bu istatistiksel teorinin değerinin somut bir göstergesidir.

Birçok mükemmel ders kitabı hesabının bulunduğu teoriyi yeniden şekillendirmek yerine , bilinen standart sapmanın bağımsız normal varyasyonu için üç alt güven sınırı (LCL) prosedürünü hızlı bir şekilde inceleyelim . Sorunun önerdiği üç doğal ve umut verici olanı seçtim. Her biri istenen bir güven düzeyi : $n$ $1-\alpha$

Seçenek la, "dk" prosedürü . Alt güven sınırı . Sayı değeri olasılığı o kadar belirlenir gerçek ortalama aşacaktır sadece bir ; yani, . $t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Seçenek 1b, "maks" prosedürü . Alt güven sınırı . Sayı değeri olasılığı o kadar belirlenir gerçek ortalama aşacaktır sadece bir ; yani, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Seçenek 2, "ortalama" prosedürü . Alt güven sınırı . Sayı değeri olasılığı o kadar belirlenir gerçek ortalama aşacaktır sadece bir ; yani, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Bilindiği gibi burada ; , standart Normal dağılımın kümülatif olasılık işlevidir. Bu, soruda belirtilen formüldür. Matematiksel bir steno $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Min ve maks prosedürleri için formüller daha az bilinir, ancak belirlenmesi kolaydır:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Bir simülasyon aracılığıyla, her üç formülün de işe yaradığını görebiliriz. Aşağıdaki Rkod deneyi n.trialsayrı ayrı yürütür ve her deneme için üç LCL'nin tümünü rapor eder:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Kod genel normal dağılımlarla çalışmak için uğraşmaz: ölçüm birimlerini ve ölçüm ölçeğinin sıfırını seçmekte özgür olduğumuz için, , vakasını incelemek yeterlidir . çeşitli formüllerinin hiçbiri aslında bağlı değildir .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10.000 deneme yeterli doğruluk sağlayacaktır. Simülasyonu çalıştıralım ve her prosedürün gerçek ortalamanın altında bir güven limiti üretme sıklığını hesaplayalım:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Çıktı

   max    min   mean 
0.0515 0.0527 0.0520

Bu frekanslar, belirtilen üç prosedürün hepsinin reklamı yapılan şekilde çalıştığından tatmin olabileceğimiz öngörülen değerine yeterince yakındır : her biri ortalama için% 95 güven düşük güven limiti üretir. $\alpha=.05$

(Bu frekanslar biraz farklı kaygılarınızı dile ederse , daha fazla denemeler çalıştırabilir bir milyon denemeler ile, daha da yakın geliyorlar. : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Bununla birlikte, herhangi bir LCL prosedürü hakkında istediğimiz bir şey, sadece planlanan zaman oranını doğru olması değil, aynı zamanda doğruya yakın olma eğiliminde olmasıdır . Örneğin, derin bir dini duyarlılık nedeniyle, verilerini toplamak ve bir LCL hesaplaması yapmak yerine Delphi kehanetine (Apollon) başvurabilen (varsayımsal) bir istatistikçi düşünün . Tanrıdan% 95 LCL istediğinde, tanrı sadece gerçek anlamı ilahi olarak söyleyecek ve ona söyleyecektir - sonuçta mükemmel. Ancak, tanrı yeteneklerini insanlıkla (yanıltıcı kalması gerekir) tamamen paylaşmak istemediği için,% 5'i olan bir LCL verecektir $X_1, X_2, \ldots, X_n$ $100\sigma$ çok yüksek. Bu Delphic prosedürü de% 95 LCL'dir - ancak gerçekten korkunç bir sınır üretme riski nedeniyle pratikte kullanmak korkutucu bir prosedür olacaktır.

Üç LCL prosedürümüzün ne kadar doğru olduğunu değerlendirebiliriz. İyi bir yol, örnekleme dağılımlarına bakmaktır: eşdeğer olarak, birçok simüle edilmiş değerin histogramları da olacaktır. İşte buradalar. İlk olarak, bunları üretmek için kod:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

histogramlar

Aynı x eksenlerinde (ancak biraz farklı dikey eksenlerde) gösterilirler. İlgilendiğimiz şey

Sağındaki kırmızı kısımları --whose alanlar işlemleri sıklığını temsil başarısız ortalama hafife - istenen miktarda, yaklaşık olarak eşit olan tüm . (Bunu sayısal olarak zaten doğrulamıştık.) $0$ $\alpha=.05$
Spread simülasyon sonuçlarının. Açıktır ki, en sağdaki histogram dar diğer iki daha: gerçekten ortalama hafife bir prosedürü tanımlamaktadır (e eşit tam) zaman% ancak yapar bile, bu rakamın altındadır olan hemen hemen her zaman arasında gerçek demek. Diğer iki histogram, gerçek ortalamayı biraz daha fazla küçümseme eğilimindedir, yaklaşık çok düşüktür. Ayrıca, gerçek ortalamayı fazla tahmin ettiklerinde, en sağdaki prosedürden daha fazla tahmin etme eğilimindedirler. Bu nitelikler onları en sağdaki histogramdan daha aşağı yapar. $0$ $95$ $2 \sigma$ $3\sigma$

En sağdaki histogram, geleneksel LCL prosedürü olan Seçenek 2'yi açıklar.

Bu spreadlerin bir ölçüsü, simülasyon sonuçlarının standart sapmasıdır:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Bu sayılar, max ve min prosedürlerinin eşit yayılmalara (yaklaşık ) ve normal, ortalama prosedürün yayılmalarının sadece üçte ikisine (yaklaşık ) sahip olduğunu söyler . Bu gözlerimizin kanıtlarını doğrular. $0.68$ $0.45$

Standart sapmaların kareleri sırasıyla , ve eşit olan varyanslardır . Varyanslar veri miktarı ile ilgili olabilir : eğer bir analist max (veya min ) prosedürünü önerirse, o zaman olağan prosedür tarafından sergilenen dar yayılımı elde etmek için müşterilerinin kat daha fazla veri alması gerekir - iki kat fazla. Başka bir deyişle, Seçenek 1'i kullanarak bilgileriniz için Seçenek 2'yi kullanmaktan iki kat daha fazla ödeme yaparsınız. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
kaynak

Beni asla şaşırtamazsın.

— Momo

+1 @whuber Bu güzel bir örnek. Bootstrap güven aralıklarını tanımlarken Efron doğruluk ve doğruluktan bahseder. Doğruluk, aralığın gerçek güven düzeyinin reklamı yapılan değere yakın olmasıdır. 3 örneğinizin hepsi doğrudur. Doğruluk en iyiyi ifade eder. En kısa genişliğe sahip doğru bir aralık anlamına gelen iki taraflı bir güven aralığı için (davanızdaki ortalamayı temel alan aralık veya sınır). Örneğiniz ilginç çünkü üç yöntem en azından biraz rekabetçi.

— Michael R. Chernick

OPs seçenek 1, cevabımda verdiğim nedenlerden dolayı rekabetçi olmaya yakın değil.

— Michael R. Chernick

@Michael 1. Seçenek hakkındaki yorumunuzun rekabetçi olmadığını kabul ediyorum . İlginç bulduğum ve burada keşfettiğim şey, birinin burada incelediğim beş ayrı olandan "gerçek alt sınırı" nasıl "hesaplayabileceğine dair bazı daha geçerli yorumlar olmasıdır. Muhtemelen bir "medyan" seçeneğine de yakından bakmalıydım: normal hesaplamadan (yaklaşık% 40 daha az verimli) çok daha düşük olmayacak.

— whuber

İlk seçenek, numuneden aldığınız azaltılmış varyansı hesaba katmaz İlk seçenek, her durumda 1 boyuttaki bir örneğe dayanarak ortalama için beş daha düşük% 95 güven sınırı verir. Bunların ortalamasını alarak birleştirmek,% 95 daha düşük bir sınır olarak yorumlayabileceğiniz bir sınır oluşturmaz. Kimse bunu yapmazdı. İkinci seçenek ne yapılır. Beş bağımsız gözlemin ortalaması, tek bir numunenin varyansından 6 kat daha küçük bir varyansa sahiptir. Bu nedenle, ilk şekilde hesapladığınız beş taneden daha iyi bir alt sınır verir.

X Ayrıca normale iid olduğu kabul edilebilir ve ardından T'ye normal olacaktır. $_i$

— Michael R. Chernick
kaynak