Bir persantil için güven aralığı nasıl elde edilir?


15

Dolar miktarı olan bir sürü ham veri değerim var ve bu verilerin bir yüzdelik değeri için bir güven aralığı bulmak istiyorum. Böyle bir güven aralığı için bir formül var mı?

Yanıtlar:


21

Yaygın bir durumu kapsayan bu soru, basit, yaklaşık olmayan bir cevabı hak ediyor. Neyse ki, bir tane var.

Diyelim ki , kantilini yazacak olan bilinmeyen bir dağıtımdan bağımsız değerler . Bu, her (en azından) dan küçük veya ona eşit olma şansına sahip olduğu anlamına gelir . Sonuç olarak, sayısının ' den daha az ya da ona eşit olması bir Binom dağılımına sahiptir.X1,,XnFqthF1(q)XiqF1(q)XiF1(q)(n,q)

Bu basit düşünceyle motive olan Gerald Hahn ve William Meeker, İstatistiksel Aralıklarında (Wiley 1991)

için iki taraflı dağıtımsız muhafazakar güven aralığı elde edildi ...F - 1 ( q ) [ X ( l ) , X ( u ) ]100(1α)%F1(q)[X(l),X(u)]

burada olan sıra istatistikleri numunenin. Söylemeye devam ediyorlarX(1)X(2)X(n)

Bir tamsayılar seçebilir çevresinde simetrik olarak (veya hemen hemen simetrik olarak) ve yakın olarak birbirine ihtiyaçlarına mümkün konu olarakq ( n + 1 ) B ( u - 1 ; n , q ) - B ( l - 1 ; n , q ) 1 - α .0lunq(n+1)

(1)B(u1;n,q)B(l1;n,q)1α.

Soldaki ifade, Binomial değişkeninin değerlerinden birine sahip olma olasılığıdır . Açıkçası, bu, dağılımın daha düşük düşen veri değerlerinin sayısının ne çok küçük ( den küçük ) ne de çok büyük ( veya daha büyük) olma olasılığıdır .{ l , l + 1 , , u - 1 } X i 100 q % l u(n,q){l,l+1,,u1}Xi100q%lu

Hahn ve Meeker, alıntı yapacağım bazı faydalı açıklamalar ile takip ediyorlar.

Önceki aralık muhafazakar çünkü Denklem in sol tarafı tarafından verilen gerçek güven seviyesi belirtilen değerinden daha yüksek . ...1 - α(1)1α

Bazen en azından istenen güven seviyesine sahip, dağılımsız bir istatistik aralığı oluşturmak imkansızdır. Bu sorun, özellikle küçük bir örnekten bir dağılım kuyruğundaki persantilleri tahmin ederken akut olur. ... Bazı durumlarda analist simetrik olmayan bir şekilde ve seçerek bu problemle başa çıkabilir . Başka bir alternatif, azaltılmış bir güven düzeyi kullanmak olabilir.senlu


Bir örnek üzerinde çalışalım (Hahn & Meeker tarafından da sağlanmıştır). Düzenli bir "kimyasal işlemden bir bileşiğin ölçümleri" seti sağlarlar ve persentil için güven aralığı isterler . iddia ediyorlar ve işe yarayacak., 100 ( 1 - α ) = 95 % q = 0.90 L = 85 u = 97n=100100(1α)=95%q=0.90l=85u=97

Binom (100, 0.90) dağılımını gösteren şekil

Şekilde mavi çubukların gösterdiği gibi bu aralığın toplam olasılık, olduğu : Bir alabilirsiniz olarak yakın olarak yıllardan bu hala henüz tüm şansını iki kesilecek seçme ve ortadan kaldırarak, bunun üzerinde olması sol kuyruk ve bu kuyruğun ötesinde sağ kuyruk.95 %95.3%95%

İşte sırayla gösterilen veriler, değer ortadan dışarıda bırakılır :81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

büyüğüdür ve büyüğüdür . Bu nedenle aralık .85th24.3397th33.24[24.33,33.24]

Bunu yeniden yorumlayalım. Bu prosedürün en az yüzdelik dilimi karşılama şansı olması gerekiyordu . Bu yüzdelik değer aslında aşarsa , örneğimizde yüzdelik değerin altında olan değerden veya daha fazlasını gözlemlediğimiz anlamına gelir . Bu haddinden fazla. Bu yüzdelik değer küçükse , örneğimizde yüzdelik değerin altında veya daha az değer gözlemlediğimiz anlamına gelir . Bu çok az.95%90th33.249710090th24.338490th Her iki durumda da - tam olarak şekilde kırmızı çubuklarla gösterildiği gibi - bu aralık içinde yer alan yüzdelik dilime karşı kanıt olacaktır .90th


ve iyi seçimlerini bulmanın bir yolu , ihtiyaçlarınıza göre arama yapmaktır. Burada simetrik bir yaklaşık aralıkla başlayan ve sonra iyi kapsama alanı (mümkünse) olan bir aralık bulmak için ve değerlerini kadar değiştirerek arama yapan bir yöntem vardır . Kod ile gösterilmiştir . Bir Normal dağılım için yukarıdaki örnekteki kapsamı kontrol etmek üzere ayarlanmıştır. Çıkışılulu2R

Simülasyon ortalama kapsamı 0.9503'tür; beklenen kapsam 0.9523

Simülasyon ve beklenti arasındaki anlaşma mükemmel.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

türetme

-quantile rastgele değişken (bu, yüzdelik daha genel bir kavramdır) ile verilir . Örnek karşılığı olarak yazılabilir - bu sadece örnek miktarıdır. Biz dağıtım ile ilgileniyoruz:τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

İlk olarak, ampirik cdf'nin asimtotik dağılımına ihtiyacımız var.

Yana , Eğer merkezi limit teoremi kullanabilir. bir bernoulli rastgele değişkendir, bu nedenle ortalama ve varyans .F^(x)=1n1{Xi<x}1{Xi<x}P(Xi<x)=F(x)F(x)(1F(x))

n(F^(x)F(x))N(0,F(x)(1F(x)))(1)

Şimdi, ters sürekli bir fonksiyon olduğu için delta yöntemini kullanabiliriz.

[** Delta yöntemi, ve sürekli bir , **]n(y¯μy)N(0,σ2)g()n(g(y¯)g(μy))N(0,σ2(g(μy))2)

(1) 'in sol tarafında vex=qτg()=F1()

n(F1(F^(qτ))F1(F(qτ)))=n(q^τqτ)

[** son adımda biraz el olduğunu unutmayın, çünkü , ancak gösterme sıkıcıysa asimptotik olarak eşittir **]F1(F^(qτ))F^1(F^(qτ))=q^τ

Şimdi, yukarıda belirtilen delta yöntemini uygulayın.

Yana (ters fonksiyonu teoremi)ddxF1(x)=1f(F1(x))

n(q^τqτ)N(0,F(qτ)(1F(qτ))f(F1(F(qτ)))2)=N(0,F(qτ)(1F(qτ))f(qτ)2)

Daha sonra, güven aralığını oluşturmak için, yukarıdaki varyanstaki terimlerin her birinin örnek karşılıklarını takarak standart hatayı hesaplamamız gerekir:

Sonuç

Bu yüzdense(q^τ)=F^(q^τ)(1F^(q^τ))nf^(q^τ)2= τ(1τ)nf^(q^τ)2

VeCI0.95(q^τ)=q^τ±1.96se(q^τ)

Bu, yoğunluğunu tahmin etmenizi gerektirir , ancak bu oldukça basit olmalıdır. Alternatif olarak, CI'yi kolayca kolayca önyükleyebilirsiniz.X


1
Cevabınızı bağlantılı makalenin içeriğiyle genişletebilir misiniz? Bağlantılar sonsuza kadar çalışmayabilir ve bu cevap daha az faydalı olacaktır
Andy

1
Bu asimtotik sonucun, binom dağılımında serbestçe dağıtılan dağılıma kıyasla yoğunluk tahminlerine dayanan avantajı nedir?
Michael M


Evet, bu bağlantıyı tekrar eklemeli miyim? Bunun iyi bilinen bir sonuç olduğunu düşünüyorum. Daha önce sınıfta gördüm ve google tarafından bulmak zor değil. Böyle bir durumda, bağlantı vermek veya yazmak ya da her ikisini birden yapmak daha mı iyi?
bmciv

Her ikisini de söyleyebilirim ve bu, uygun atıf uğruna tamamen alıntılanmış / alıntılanmışsa geri düzenlemelisiniz. Aksi takdirde, düzenlemeniz önemli değildir, ancak genel olarak Stack Exchange politikası, bağlantı çürümesinden kaçınmak ve prensip olarak (yalnızca bir bağlantı dizini değil, bağımsız bir depo olmaktır), yalnızca bağlantı yanıtlarını engellemektir. Bu senaryonun ne kadarının hayali bir "kaygan eğimden" fazlası olduğundan emin değilim).
Nick Stauner
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.