Eğri dağılımın ortalaması için güvenilir bir parametrik olmayan güven aralığı var mı?


30

Log-normal gibi çok eğimli dağılımlar, doğru önyükleme güven aralıklarıyla sonuçlanmaz. Aşağıda sol ve sağ kuyruk bölgelerinin R'de hangi önyükleme yöntemini kullandığınızdan bağımsız olarak ideal 0.025'ten uzak olduğunu gösteren bir örnek verilmiştir:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

Sonuç aşağıdadır:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

For tek göbeğini hala yeterince hassas kapsama vermeyin:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

Ampirik olabilirlik, lognormal dağılımdan örnekleme yaparken doğru güven aralıkları sağlamada başarısız olur.

λ

Hedefleri yeniden başlatmak için, popülasyon için bir güven aralığı elde etmek için genel olarak uygulanabilir bir yaklaşım arıyorum.

  1. Ham veri dağılımı asimetrik ise aralık asimetriktir
  2. aralık her iki kuyrukta da doğru kapsama sahip (örn. her ikisinde de 0,025 hata olasılığı)
  3. prosedür analistin, dağılımı simetrik hale getirmek için gerekli olan dağıtım veya gerekli dönüşüm hakkında bir şey belirlemesini gerektirmez.

tμ=0,σ=1.65n=20000 hala kapsamı kötüdür (her ikisi de 0.025 olması gerektiğinde sol kuyruk hatası 0.012, sağ 0.047).

Bunu düşünmeye devam ederken tartışmak istediğim sorunu kavramsallaştırmanın iki geniş yolu vardır.

  1. n=201.28×t
  2. Hiçbir önyükleme dizisi aşırı derecede eğri dağılımlardan alınan numuneler için yeterince kesin güven sınırları vermese de, çift önyükleme her iki kuyruktaki güven kapsamını önemli ölçüde artırabilir. Nankervis bazı güzel sonuçlara sahip ve mükemmel bir hesaplama algoritması sunuyor. Ancak bulabildiğim hiçbir yazılım bunu yapmıyor.

Yukarıdaki 1'i gösteren R kodu:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)

1
Bu hesaplama açısından yoğundur, ancak ya ampirik cdf'yi alırsanız, rastgele Brown köprülerine başladı; her Brown köprüsü, ecdf ve bazı varsayımsal cdf'ler arasındaki deltayı temsil eder. Varsayımsal cdf kullanarak ortalamayı hesaplayın ve KS testi tarafından belirlenen faktöre göre ağırlıklandırın. Bunu bir süre tekrarladığınızda, ağırlıklı bir veri aracı setine sahip olursunuz ve güven aralığını hesaplayabilirsiniz.
Nir Friedman

Ben varsayımsal bir cdf yok. Ve eğer KS'nin üst ve alt 0.95 güven bölgesini kullanırsanız ve onlardan ortalamayı hesaplarsanız ne olur, yani bu korkunç derecede muhafazakar olurdu.
Frank Harrell,

Varsayımsal cdf, deneysel cdf'ye rastgele oluşturulmuş bir Brown köprüsü eklenerek tanıtıldı. Ayrıca, ortalamanın güven bölgesinden alınmasını önermiyorum. Ben, pek çok varsayımsal dağıtım oluşturarak, uygun şekilde ağırlıklandırılarak ve sonra güven aralığını alarak birçok yol bulmanızı öneriyorum. Temelde sadece bootstrapping için farklı bir yaklaşım, sonucun olsa farklı olabileceğini düşünüyorum.
Nir Friedman

Ne kadar verimli bir şekilde programlanabileceğini ve güven aralığı kapsamının ne kadar doğru olduğunu görmek ilginç olurdu. Önerin için teşekkürler. Acaba Bayesian önyükleme bu taklit eder mi. Bayesian önyüklemesini başka bir bağlamda denedim ve güven aralığı kapsamını iyileştirmedi.
Frank Harrell,

Yanıtlar:


11

Bu tür parametrik olmayan bir yöntem hakkında, en azından altta yatan dağıtımla ilgili bazı kısıtlamalar getirilmeden biraz karamsarım.

nn

Göstermek için, bir değere kadar normal gibi görünen bir dağılım düşünebilirsiniz. αααnα

Yani, uygun asimptotik arıyorsanız kapsama , tabii ki bu CLT ile yapılabilir. Ancak, sorunuz sonlu kapsama alanıyla (oldukça makul) ilgilendiğiniz anlamına gelir. Örneğimin gösterdiği gibi, herhangi bir sonlu CI'yi mahvedecek patolojik bir durum daima olacaktır.

Şimdi, dağıtımınıza sınırlamalar ekleyerek iyi sonlu kapsama elde eden parametrik olmayan bir CI’niz olabilir. Örneğin, log-concave kısıtlaması parametrik olmayan bir kısıtlamadır. Ancak log-normal log-içbükey olmadığı için probleminiz için yetersiz görünüyor.

α


2
Mükemmel düşünceler. Bu tür kısıtlamaları talep etmekte tereddüt ediyorum, çünkü genellikle çift modlu dağılımlar ve diğer karmaşıklıklar görüyorum.
Frank Harrell,

1
@ FrankHarrell: Parametrik olmayan log-içbükey bileşenli karışım modelleri ile çalışmalar yapılmıştır. Ancak, şu anda, özellikle bileşenlerin sayısı önceden bilinmiyorsa, genel ortalamaya güven oluşturmak için iyi yöntemler olduğunu hayal edemiyorum.
Cliff AB

2

Herhangi bir numunenin altında yatan varsayımlardan biri temsil edilebilirliktir. Bir dağılımın kuyrukları ne kadar uzun olursa, herhangi bir küçük numunenin CI için güvenilir bir şekilde çözmesi için herhangi bir yöntemin yeterince temsili olması muhtemeldir, çünkü numune dağılımı temsil edemez.

Örneğin, üstel bir dağılımda basit bir CI yüzdesi çalıştırmak, 250 örneklem büyüklüğünde bir sonuç verir. Yine de ideal olmasalar da 25'lik bir örnekle çok daha iyiler.

Cliff AB ile genel bir çözüm olmayacağına katılıyorum, ancak aşırı dağılımları varsaymanız gerekmiyor. Küçük örneklerle geniş çapta çalışan hiçbir şey olmayacak. Ve bazı durumlarda numunelerin çok büyük olması gerekebilir (ancak yanlış olması güzel olurdu).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.