Ağırlıklı ortalama tahmininde standart hatayı hesaplama


16

Varsayalım ki ve her çizilir iid ile Dağılımlardan ait bağımsız . kesinlikle olumludur. Tüm gözlemlemek değil ; bunun yerine gözlemlersiniz . Bu bilgiden değerini tahmin etmek istiyorum . Açıkçası tahmin edici tarafsızdır ve eldeki bilgiler göz önüne alındığında hesaplanabilir.w1,w2,,wnx1,x2,...,xnwixiwiwixiixiwiE[x]

x¯=iwixiiwi

Bu tahmin edicinin standart hatasını nasıl hesaplayabilirim? yalnızca 0 ve 1 değerlerini aldığı alt-durum için , saf bir şekilde temelde değişkenliği göz ardı ederek, bunun küçük örnek boyutları için kötü performans gösterdiğini buldu. (Ve bu muhtemelen varyansına bağlıdır .) Belki de yeterli bilgiye sahip değilim gibi görünüyor. 'daha iyi' bir standart hata hesaplayın.xiWiağırlıki

sex¯(1x¯)iwi2iwi,
wiwi

Yanıtlar:


17

Geçenlerde de aynı sorunla karşılaştım. Bulduğum şey şu:

Eşit ağırlığa sahip basit bir rastgele numunenin aksine, ağırlıklı ortalamadaki standart hatanın yaygın olarak kabul edilen bir tanımı yoktur . Bu günlerde, bir önyükleme yapmak ve ortalamanın ampirik dağılımını elde etmek basittir ve bu tahmine dayanarak standart hata.

Ya bu tahmini yapmak için bir formül kullanmak isterse?

Ana referans, bu formül, Donald F. Gatz ve Luther Smith tarafından hazırlanmıştır. Burada 3 formül tabanlı tahminci, bootstrap sonuçlarıyla karşılaştırılmıştır. Bootstrap sonucuna en iyi yaklaşım Cochran'dan (1977) gelir:

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Bu R listserve iş parçacığından gelen karşılık gelen R kodu aşağıdadır .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Bu yardımcı olur umarım!


Bu çok havalı, ama benim sorun için bile gözlemlemek yok , daha doğrusu ben toplamını gözlemlemek Σ i P i X i . Sorum çok garip çünkü bazı bilgi asimetrisi içeriyor (üçüncü bir taraf toplamı rapor ediyor ve belki de bazı bilgileri saklamaya çalışıyor). PiXiiPiXi
shabbychef

Tanrım haklısın, üzgünüm sorduğun soruyu tam olarak anlamadım. Sorununuzu, tüm Bernoulli RV olan en basit duruma kadar kaynattığımızı varsayalım . Sonra esasen n RV'lerin rastgele bir alt kümesinin toplamını gözlemliyorsunuz . Tahminimce burada tahmin edilecek çok fazla bilgi yok. Peki orijinal probleminiz için ne yaptınız? win
Ming K

@ Ming-ChihKao bu kokran formülü ilginç ama veri normal olmadığında bu güven aralığı oluşturursanız tutarlı bir yorum doğru değil mi? Normal olmayan ağırlıklı ortalama güven aralıkları nasıl ele alınır? Ağırlıklı miktarlar?
user3022875

Ben fonksiyonu ile bir hata olduğunu düşünüyorum. Eğer ikame ederseniz w=rep(1, length(x)), o weighted.var.se(rnorm(50), rep(1, 50))zaman yaklaşık 0.014. Sanırım formülde sum(w^2)payda bir eksik var , çünkü ne zaman P=1varyans var 1/(n*(n-1)) * sum((x-xbar)^2). Atıfta bulunulan makaleyi ödeme duvarının arkasında olduğu için kontrol edemiyorum, ama bu düzeltmeyi düşünüyorum. İşin garibi, Wikipedia'nın (farklı) çözümü tüm ağırlıklar eşit olduğunda dejenere oluyor: en.wikipedia.org/wiki/… .
Max Candocia

Bunlar genel olarak daha iyi çalışabilir: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia

5

Verildiğinde, tahmin varyansı olan Tahmininiz herhangi bir için tarafsız olduğu için , koşullu ortalamasının varyansı sıfırdır. Dolayısıyla, tahmininizin varyansı Gözlemlenen tüm verilerle bu ampirik olarak tahmin edilmesi kolay. Ancak, gözlemlenen konumunun sadece bir ölçüsü ile, değil, tahmininin oldukça ciddi varsayımlar yapmadan nasıl mümkün olacağını göremiyorum .wi

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi
Var(X)E(wi2(wi)2)
XiVar(X)

xixx¯(1x¯)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.