Yanıtlar:
Yaygın bir durumu kapsayan bu soru, basit, yaklaşık olmayan bir cevabı hak ediyor. Neyse ki, bir tane var.
Diyelim ki , kantilini yazacak olan bilinmeyen bir dağıtımdan bağımsız değerler . Bu, her (en azından) dan küçük veya ona eşit olma şansına sahip olduğu anlamına gelir . Sonuç olarak, sayısının ' den daha az ya da ona eşit olması bir Binom dağılımına sahiptir.
Bu basit düşünceyle motive olan Gerald Hahn ve William Meeker, İstatistiksel Aralıklarında (Wiley 1991)
için iki taraflı dağıtımsız muhafazakar güven aralığı elde edildi ...F - 1 ( q ) [ X ( l ) , X ( u ) ]
burada olan sıra istatistikleri numunenin. Söylemeye devam ediyorlar
Bir tamsayılar seçebilir çevresinde simetrik olarak (veya hemen hemen simetrik olarak) ve yakın olarak birbirine ihtiyaçlarına mümkün konu olarakq ( n + 1 ) B ( u - 1 ; n , q ) - B ( l - 1 ; n , q ) ≥ 1 - α .
Soldaki ifade, Binomial değişkeninin değerlerinden birine sahip olma olasılığıdır . Açıkçası, bu, dağılımın daha düşük düşen veri değerlerinin sayısının ne çok küçük ( den küçük ) ne de çok büyük ( veya daha büyük) olma olasılığıdır .{ l , l + 1 , … , u - 1 } X i 100 q % l u
Hahn ve Meeker, alıntı yapacağım bazı faydalı açıklamalar ile takip ediyorlar.
Önceki aralık muhafazakar çünkü Denklem in sol tarafı tarafından verilen gerçek güven seviyesi belirtilen değerinden daha yüksek . ...1 - α
Bazen en azından istenen güven seviyesine sahip, dağılımsız bir istatistik aralığı oluşturmak imkansızdır. Bu sorun, özellikle küçük bir örnekten bir dağılım kuyruğundaki persantilleri tahmin ederken akut olur. ... Bazı durumlarda analist simetrik olmayan bir şekilde ve seçerek bu problemle başa çıkabilir . Başka bir alternatif, azaltılmış bir güven düzeyi kullanmak olabilir.sen
Bir örnek üzerinde çalışalım (Hahn & Meeker tarafından da sağlanmıştır). Düzenli bir "kimyasal işlemden bir bileşiğin ölçümleri" seti sağlarlar ve persentil için güven aralığı isterler . iddia ediyorlar ve işe yarayacak., 100 ( 1 - α ) = 95 % q = 0.90 L = 85 u = 97
Şekilde mavi çubukların gösterdiği gibi bu aralığın toplam olasılık, olduğu : Bir alabilirsiniz olarak yakın olarak yıllardan bu hala henüz tüm şansını iki kesilecek seçme ve ortadan kaldırarak, bunun üzerinde olması sol kuyruk ve bu kuyruğun ötesinde sağ kuyruk.95 %
İşte sırayla gösterilen veriler, değer ortadan dışarıda bırakılır :
büyüğüdür ve büyüğüdür . Bu nedenle aralık .
Bunu yeniden yorumlayalım. Bu prosedürün en az yüzdelik dilimi karşılama şansı olması gerekiyordu . Bu yüzdelik değer aslında aşarsa , örneğimizde yüzdelik değerin altında olan değerden veya daha fazlasını gözlemlediğimiz anlamına gelir . Bu haddinden fazla. Bu yüzdelik değer küçükse , örneğimizde yüzdelik değerin altında veya daha az değer gözlemlediğimiz anlamına gelir . Bu çok az. Her iki durumda da - tam olarak şekilde kırmızı çubuklarla gösterildiği gibi - bu aralık içinde yer alan yüzdelik dilime karşı kanıt olacaktır .
ve iyi seçimlerini bulmanın bir yolu , ihtiyaçlarınıza göre arama yapmaktır. Burada simetrik bir yaklaşık aralıkla başlayan ve sonra iyi kapsama alanı (mümkünse) olan bir aralık bulmak için ve değerlerini kadar değiştirerek arama yapan bir yöntem vardır . Kod ile gösterilmiştir . Bir Normal dağılım için yukarıdaki örnekteki kapsamı kontrol etmek üzere ayarlanmıştır. ÇıkışıR
Simülasyon ortalama kapsamı 0.9503'tür; beklenen kapsam 0.9523
Simülasyon ve beklenti arasındaki anlaşma mükemmel.
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
türetme
-quantile rastgele değişken (bu, yüzdelik daha genel bir kavramdır) ile verilir . Örnek karşılığı olarak yazılabilir - bu sadece örnek miktarıdır. Biz dağıtım ile ilgileniyoruz:
İlk olarak, ampirik cdf'nin asimtotik dağılımına ihtiyacımız var.
Yana , Eğer merkezi limit teoremi kullanabilir. bir bernoulli rastgele değişkendir, bu nedenle ortalama ve varyans .
Şimdi, ters sürekli bir fonksiyon olduğu için delta yöntemini kullanabiliriz.
[** Delta yöntemi, ve sürekli bir , **]
(1) 'in sol tarafında ve
[** son adımda biraz el olduğunu unutmayın, çünkü , ancak gösterme sıkıcıysa asimptotik olarak eşittir **]
Şimdi, yukarıda belirtilen delta yöntemini uygulayın.
Yana (ters fonksiyonu teoremi)
Daha sonra, güven aralığını oluşturmak için, yukarıdaki varyanstaki terimlerin her birinin örnek karşılıklarını takarak standart hatayı hesaplamamız gerekir:
Sonuç
Bu yüzden√
Ve
Bu, yoğunluğunu tahmin etmenizi gerektirir , ancak bu oldukça basit olmalıdır. Alternatif olarak, CI'yi kolayca kolayca önyükleyebilirsiniz.