Bootstrapped örneklerden alınan güven aralığının anlamı nedir?


38

Bu sitede önyükleme ve güven aralığı ile ilgili sayısız soruya baktım ama hala kafam karıştı. Kafamın karışma sebebinin bir kısmı muhtemelen istatistik bilgilerimde cevapların çoğunu anlayacak kadar gelişmiş olmamamdır. Girişsel bir istatistik kursunun yarısı kadar yoldayım ve matematik seviyem sadece Cebir II'nin ortasıyla ilgili, yani bu seviyedeki herhangi bir şey beni şaşırtıyor. Bu sitedeki bilgili kişilerden biri bu konuyu benim seviyemde açıklayabilirse bu son derece yardımcı olacaktır.

Sınıfta bootstrap yöntemini kullanarak nasıl örnek alınacağını ve ölçmek istediğimiz bazı istatistikler için bir güven aralığı oluşturmak için bunları kullandık. Örneğin, büyük bir popülasyondan örnek aldığımızı ve% 40'ının A adayı için oy kullanacaklarını söylediklerini söylüyoruz. Bu örneğin orijinal popülasyonun oldukça doğru bir yansıması olduğunu varsayıyoruz. nüfus hakkında bir şeyler keşfetmek için. Bu yüzden örnekler alıyoruz ve (% 95 güven seviyesi kullanarak) ortaya çıkan güven aralığının% 35 ile% 45 arasında olduğunu tespit ediyoruz.

Sorum şu, bu güven aralığı aslında ne anlama geliyor ?

(Frequentist) Güven Aralıkları ve (Bayesian) Güvenilir Aralıklar arasında bir fark olduğunu okumaya devam ediyorum. Eğer doğru anladıysam, güvenilir bir aralık içinde olduğu bir% 95 şans var olduğunu söyleyebilirim durumumuzu bir güven aralığı% 95 o var olduğunu söyleyebilirim ederken gerçek parametre verilen aralığı (% 35 -45%) içindedir, bu Durum tipi (ancak özel olarak bizim durumumuzda olması gerekmez) kullandığımız yöntem doğru parametrenin verilen aralıkta olduğunu doğru olarak bildirir.

Bu tanımın doğru olduğunu varsayarak, benim sorum şu: Bootstrap yöntemi kullanılarak oluşturulan güven aralıklarını kullanırken bahsettiğimiz "gerçek parametre" nedir? (A) orijinal popülasyonun gerçek parametresini mi , yoksa (b) numunenin gerçek parametresini mi kastediyoruz ? (A) öyleyse, bootstrap yönteminin% 95'inin orijinal popülasyon hakkında doğru ifadeleri doğru bir şekilde rapor edeceğini söylerdik. Fakat bunu nasıl bilebiliriz? Tüm bootstrap yöntemi varsayıma dayanmıyor mu?Asıl örneklemin alındığı nüfusun doğru bir yansıması olduğunu? (B) öyleyse, güven aralığının anlamını hiç anlamıyorum. Numunenin gerçek parametresini zaten bilmiyor muyuz? Bu basit bir ölçüm!

Bunu öğretmenimle konuştum ve oldukça yardımcı oldu. Ama hala kafam karıştı.

Yanıtlar:


28

Eğer ön yükleme prosedürü ve güven aralığı oluşturma işlemi doğru yapılmışsa, diğer güven aralığı ile aynı anlama gelir. Sıkça bir bakış açısına göre,% 95'lik bir CI, tüm çalışmanın adin sonsuz olarak tekrarlanması halinde, bu şekilde oluşturulan bu güven aralıklarının% 95'inin gerçek değeri içereceği anlamına gelir. Elbette, çalışmanızda veya herhangi bir bireysel çalışmada, güven aralığı ya gerçek değeri içerir ya da içermez, ama hangisini bilmeyeceksiniz. Bu fikirleri daha fazla anlamak için cevabımı burada okumanıza yardımcı olabilir: Neden bir% 95 Güven Aralığı (CI) ortalamayı içeren bir% 95 şans anlamına gelmiyor?

Diğer sorularınızla ilgili olarak, 'gerçek değer', ilgili popülasyonun gerçek parametresini ifade eder. (Örnekler parametrelere sahip değil, istatistik var ; örneğin, örnek ortalama, , örnek bir istatistik, ancak nüfus ortalama, , bir popülasyon parametresi.) Uygulamada bunu nasıl bildiğimize göre yapmıyoruz. Bazı varsayımlara güvenmekte olduğumuz konusunda haklısın - her zaman öyleyiz. Bu varsayımlar doğruysa, özelliklerin geçerli olduğu kanıtlanabilir. Efron'un 1970'lerin sonunda ve 1980'lerin başında yaptığı çalışma bu noktadaydı, ancak çoğu insanın izlemesi için matematik zordur. Önyüklemenin biraz matematiksel açıklaması için, bkz. @ StasK'ın buradaki cevabı: Önyükleme işleminin neden işe yarayacağını açıklamakx¯μ. Matematiğin kısa bir gösteri için, aşağıdaki simülasyonu kullanarak düşünün R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

Hangi özel varsayımlara güveniyoruz?
iarwain

2
Teşekkürler. Sanırım bu konunun ikinci cevabında aradığım şeyi buldum: "Unutmayın, popülasyon ortalamasını tahmin etmek için önyükleme örneklerinin araçlarını kullanmadığımızı unutmayın, bunun için örnek ortalamayı kullanıyoruz (veya ilgilenilen istatistik ne olursa olsun) Örnekleme işleminin özelliklerini (yayılmasını, önyargısını) tahmin etmek için önyükleme örneklerini kullanıyoruz ve örneklemenin etkilerini öğrenmek için (ilgilenen popülasyonun temsilcisi olduğunu umuyoruz) bilinen bir popülasyondan örneklemeyi kullanmak ve daha az dairesel. " ...
Ocak'ta

1
... Başka bir deyişle, tüm CI bize, bizimkine benzer bir popülasyonda, o popülasyondan alınan örneklerin% 95'inin hata değerini gerçek değeri +/- olarak yansıtmasını bekleyeceğimizi söylüyor. Dolayısıyla yaptığımız tek şey çok kaba bir ipucu vermek - belki de elimizdeki en iyi ipucu - örnek istatistiklerimizin gerçek nüfus parametresiyle ne kadar yakın olabileceği hakkında. Eğer öyleyse, o zaman CI'deki kesin rakamları çok ciddiye almamamız gerektiği gibi görünüyor - "örnek istatistiği muhtemelen bu dereceye kadar kabaca doğrudur." Doğru anladım mı?
iarwain

1
Bu aslında doğru. Bir CI bize tahmininizin hassasiyetini verir, ancak gerçek (gerçekleşmiş) CI'nin gerçek değeri içerip içermediğini asla bilemeyiz. Birincil varsayım, verilerimizin ilgilenilen nüfusu temsil ettiği yönündedir. Bunların hiçbirinin önyükleme yapılmayan CI'lara özgü olmadığını , asimptotik teoriyle hesaplanan bir CI'de aynı yorumu ve varsayımlara sahip olduğunuzu unutmayın.
gung - Monica’yı yeniden yerleştirme

1
Bu mükemmel bir açıklama. Sadece "gerçek değer" in zaman zaman çalışma tasarımının bir eseri olduğunu eklerdim. Siyasi adaylar için yapılan oylamada, tabakalı örnekler rastgele bir örneklemden çok daha kesin ve güvenilir tahminler veriyor. Maliyet, yanlış grubun tasarıma göre aşılması riskidir. Bu durumda,% 95 CI, çalışma adının sonsuz olarak kopyalanmasıyla elde edilen doğru değere odaklanır , ancak bu değer, gerçek bir parametrenin diğer anlamı değildir: tahmin etmek istediğimiz parametre . Bu nedenle çalışma tasarımı ve çıkarım içsel olarak bağlantılıdır.
AdamO,

0

Söylediğiniz şey, bootstrapped örneklerden güven aralığı bulmaya gerek olmadığıdır. Eğer bootstrapped örneklerden elde edilen istatistikten (örnek ortalama veya örnek oranı) memnunsanız, herhangi bir güven aralığı bulamazsınız ve yorumlama meselesi yoktur. Ancak, önyüklenmiş örneklerden elde edilen istatistiklerden memnun değilseniz ya da tatmin olduysanız da yine de güven aralığını bulmak istiyorsanız, bu tür güven aralıkları için yapılan yorumlar diğer güven aralıkları ile aynıdır. Çünkü önyüklenmiş numuneleriniz orijinal popülasyonu tam olarak temsil ettiğinde (veya olduğu varsayılırsa), O zaman güven aralığı ihtiyacı nerededir? Önyüklenen örneklerden elde edilen istatistik, orijinal popülasyon parametresinin kendisidir, ancak istatistiği orijinal popülasyon parametresi olarak düşünmüyorsanız, güven aralığını bulmak için bir ihtiyaç vardır. Yani, tamamen nasıl düşündüğünle ilgili. Diyelim ki bootstrapped örneklerden% 95 güven aralığı hesapladı. Şimdi yorum şu şekildedir: "zamanların% 95'i, bu önyükleme yöntemi doğru popülasyon parametresini içeren bir güven aralığı ile sonuçlanır".

(Düşündüğüm budur. Herhangi bir hata varsa düzeltin).


-1

Orijinal popülasyonun gerçek parametresini kastediyoruz. Verilerin orijinal popülasyondan rastgele alındığını varsayarak bunu yapmak mümkündür - bu durumda, önyükleme prosedürlerinin en azından veri kümesinin boyutu yeterince büyüdüğü zaman geçerli bir güven aralığı vereceğini gösteren matematiksel argümanlar vardır. .


Bu yüzden neden çalıştığını anlamak için kulağa geliyor, matematiksel delilleri takip edebilecek kadar matematiği bilmem gerekecek. Bu doğru mu?
iarwain

Öyle düşünüyorum (ispatlara aşina değilim)
Gareth

Sezgisel olarak, örneklem büyüklüğü arttıkça örneklemin popülasyona çok benzemeye başladığını görebilirsiniz. Mesela, verilen ortalama ve varyans ile normal dağılımdan 1 milyon numune aldığımı söyleyin. Bu numuneyi X olarak adlandırın. X'ten çizilen rastgele bir numune (değiştirilmiş) orijinal dağıtımdan alınan rastgele bir numuneye çok benziyor. Bunun neden işe yaradığına dair temel bir fikir olduğunu düşünüyorum.
Gareth
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.