Normal olarak dağıtılmamış bir örnekte bir ortalamanın güven aralığını nasıl hesaplayabilirim?

19

Burada yaygın olarak kullanılan bootstrap yöntemlerini anlıyorum, ancak diğer seçeneklere açığım. Parametrik olmayan bir seçenek ararken, birisi beni parametrik bir çözümün geçerli olduğuna ikna edebilirse, bu iyi olur. Numune boyutu> 400'dür.

Herkes R bir örnek verebilir eğer çok takdir edilecektir.

— fmark
kaynak

3

Merkezi Limit Teoremi, orijinal verilerin dağılımına bakılmaksızın (bazı koşullar altında) örnek ortalamanın sınır dağılımının normal olduğunu ima eder. Çoğu durumda, örnek boyutu , normal yaklaşıklığın oldukça doğru olması için doğrudur, ancak doğruluk ana dağıtıma bağlıdır; örneğin, orijinal verilerin bir histogramını yayınlamanız yararlı olabilir.

n > 400

$n>400$

— Makro

18

Her şeyden önce, ortalamanın eldeki görev için uygun bir dizin olup olmadığını kontrol ederdim. Eğri bir dağılımın "tipik / veya merkezi bir değerini" arıyorsanız, ortalama sizi temsili olmayan bir değere işaret edebilir. Günlük normal dağılımını düşünün:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

Günlük-normal dağılım için ortalama (kırmızı),% 20 kesilmiş ortalama (yeşil) ve medyan (mavi)

Ortalama (kırmızı çizgi) verilerin büyük bir bölümünden oldukça uzaktır. % 20 kesilmiş ortalama (yeşil) ve ortanca (mavi) "tipik" değere daha yakındır.

Sonuçlar "normal olmayan" dağılımınızın türüne bağlıdır (gerçek verilerinizin bir histogramı yardımcı olacaktır). Eğri değilse, ancak ağır kuyrukları varsa, CI'leriniz çok geniş olacaktır.

Her durumda, size asimetrik CI'ler verebileceğinden, önyüklemenin gerçekten iyi bir yaklaşım olduğunu düşünüyorum. RPaket simplebootiyi bir başlangıç:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... size aşağıdaki sonucu verir:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

— Felix S
kaynak

Ayrıntılı cevap için çok teşekkürler. Yüzdelik ve düzeltilmiş yüzdelik (BCa) istatistikleri arasındaki (minimum) fark hakkında yorum yapmak ister misiniz?

— fmark

"Bootstrap önyargısı düzeltilmiş hızlandırılmış (BCa) aralığı, yüzdelikleri önyargı ve çarpıklığı düzeltecek şekilde ayarlayan persentil yönteminin bir modifikasyonudur" (Hesterberg, T., Monaghan, S., Moore, D., Clipson, A., & Epstein, R. (2005). Bootstrap yöntemleri ve permütasyon testleri. İstatistik Uygulamalarına Giriş, 14.1-14.70.). Yazılım her izin verdiğinde, BCa düzeltilmiş CI'yi kullanın (not: 1000'den fazla örneğe ihtiyaç duyar)

— Felix S

Gelen görünüyor belgelere kırparak için argüman artık desteklenmiyor olduğunu simpleboot paketi. :(

— et

8

Yarı parametrik bir çözüme açıksanız, işte bir tane: Johnson, N. (1978) Değiştirilmiş t Testler ve Asimetrik Popülasyonlar için Güven Aralıkları, JASA . Güven aralığının merkezi , burada nüfusun üçüncü anının tahminidir ve genişlik aynı kalır. Güven aralığının genişliğinin olduğu ve ortalama için düzeltme olduğu göz önüne alındığında, (siparişin gerçekten büyük bir çarpıklığına sahip olmanız gerekir ) ile önemli olması için $\hat\kappa/(6s^2n)$ $\hat\kappa$ $O(n^{-1/2})$ $O(n^{-1})$ $n^{1/2}>20$ $n>400$ . Bootstrap size asimtotik olarak eşdeğer bir aralık vermelidir, ancak resme simülasyon gürültüsü de eklenir. (Bootstrap CI, genel Bootstrap ve Edgeworth Expansion (Hall 1995) teorisine göre aynı birinci dereceden terimleri otomatik olarak düzeltir .) Simülasyon kanıtları hakkında hatırlayabildiğim için, bootstrap CI'leri analitik tabanlı CI'lerden biraz daha şişman ifadeler olsa.

Ortalama düzeltmenin analitik formuna sahip olmak, size, kestirmenin ortalama tahmin probleminizde gerçekten dikkate alınması gerekip gerekmediği hakkında anında bir fikir verecektir. Bir bakıma, bu durumun ne kadar kötü olduğunun teşhis aracıdır. Felix tarafından verilen lognormal dağılım örneğinde, nüfus dağılımının normalleştirilmiş çarpıklığı 'dir . CI'nin genişliği (popülasyon dağılımının standart sapmasını kullanarak ), ortalama için düzeltme ise (standart sapma payına taşındığı için) $(\exp(1)+2)*\sqrt{ \exp(1) - 1}$ kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877s = sqrt( (exp(1)-1)*exp(1) ) = 2.1611972*s*qnorm(0.975)/sqrt(n) = 0.2678999kappa*s/(6*n) = 0.00222779kappaölçeksiz bir çarpıklıktır, Johnson'ın formülü ise ölçeklendirilmemiş nüfus üçüncü merkezi momentle ilgilidir), yani CI genişliğinin yaklaşık 1 / 100'ü. Rahatsız etmeli misin? Hayır diyebilirim.

— StasK
kaynak

2

Günlük-normal dağılımı deneyin, hesaplayın:

Verilerin logaritması;
Ortalama ve standart sapma (1)
Karşılık gelen güven aralığı (2)
Üstel (3)

Beklenen değer etrafında (ham verilerin ortalaması olmayan) asimetrik bir güven aralığı elde edersiniz.

— Felipe G. Nievinski
kaynak