Ağırlıklı varyansta yanlılık düzeltmesi


22

Ağırlıksız varyans için

Var(X):=1ni(xiμ)2
, ortalamanın aynı verilerden hesaplandığı durumlarda önyargı düzeltilmiş örneklem varyansı vardır:
Var(X):=1n1i(xiE[X])2

Ağırlıklı ortalama ve varyansa bakıyorum ve ağırlıklı varyans için uygun önyargı düzeltmesinin ne olduğunu merak ediyorum. Kullanımı:

mean(X):=1iωiiωixi

Kullandığım "saf", düzeltilmemiş varyansı şudur:

Var(X):=1iωiiωi(ximean(X))2

Bu yüzden önyargıyı düzeltmenin doğru yolunun olup olmadığını merak ediyorum.

A)

Var(X):=1iωi1iωi(ximean(X))2

veya B)

Var(X):=nn11iωiiωi(ximean(X))2

veya C)

Var(X):=iωi(iωi)2iωi2iωi(ximean(X))2

A) ağırlıklar küçük olduğunda bana anlam ifade etmiyor. Normalleştirme değeri 0 veya hatta negatif olabilir. Peki ya B) ( gözlem sayısıdır) - bu doğru yaklaşım mı? Bunu gösteren bir referansınız var mı? "Ortalama ve varyans tahminlerinin güncellenmesi: gelişmiş bir yöntem" olduğuna inanıyorum, DHD West, 1979 bunu kullanıyor. Üçüncüsü, C) bu sorunun cevabını yorumum: /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weightedn

C) Ben sadece payda gibi göründüğünü fark ettim . Burada genel bir bağlantı var mı? Bence tamamen birbirine uymuyor; ve açıkçası, varyansı hesaplamaya çalıştığımız bir bağlantı var ...Var(Ω)

Üçünün de hepsinin ayarının akıl sağlığı kontrolünden “kurtulduğunu” görünmektedir . Peki hangisini kullanmalıyım, hangisi altında? '' Güncelleme: '' ayrıca Sağlık denetimi yapmak için önerilen whuber ω 1 = ω 2 = 0,5 ve kalan tüm ω i = ε küçücük. Bu A ve B'yi dışlıyor gibi görünüyor.ωi=1ω1=ω2=.5ωi=ϵ


En büyük iki ağırlığın eşit olduğu ve geri kalan her şeyin ufak bir şekilde küçüldüğü durumları göz önüne aldığınızda, hem (A) hem de (B) çekişmeden düşerler (çünkü için bilinen sonuçlarla aynı fikirde değildirler ). (C) bir yaklaşım gibi görünüyor; Doğru faktörün ağırlıkların çok daha karmaşık bir işlevi olduğunu düşünüyorum. n=2
whuber

@whuber ThePawn, aşağıda C olduğunu göstermektedir. Daha ayrıntılı endişeleriniz var mı?
Anony-Mousse

1
Çözüm (A) işe yarıyor, geçmişte uyguladım ve ampirik testlerden doğru sonuçları verdiğini onaylayabilirim. Ancak, ağırlıklar için sadece tamsayı değerlerini kullanmalısınız ve> 0
gaborous

Teşekkürler! Ağırlıklar üssel hareketli bir ortalama için olduğunda bu bana doğru yolda almak için çok yardımcı oldu! Varyansı hesaplamanın saf yolunun, basit hareketli ortalama hesaplamasına benzer şekilde gösterilen küçük (1-1 / n) düzeltmeye ek olarak, sabit bir 2 kat faktörü ile abarttığı ortaya çıktı. Bu çok çılgın bir özel durum!
Kasım’da

Yanıtlar:


10

Matematiğe baktım ve C değişkeniyle bitirdim:

burada ¯ V düzeltilmemiş varyans tahminidir. Formül tüm ağırlıksız durumda kabul edercoiözdeştir. Aşağıdaki kanıtı detaylandırıyorum:

Var(X)=(iωi)2(iωi)2iωi2V¯
V¯ωi

Λ i = ω i ayarıλi=ωiiωi

V¯=iλi(xijλjxj)2

(xijλjxj)2=xi2+j,kλjλkxjxk2jλjxixj

Beklentiyi alırsak, sahibiz.E[xixj]=Var(X)1i=j+E[X]2, the term E[X] being present in each term, it cancels out and we get:

E[V¯]=Var(X)iλi(1+jλj22λi)
that is
E[V¯]=Var(X)(1jλj2)
It remains to plug in the expression of λi with respect to ωi to get variant C.

That's variant C above, isn't it?
Anony-Mousse

Oups, yes, it is variant C.
ThePawn

I have checked this solution empirically and it does NOT work... The only one that does is solution (A) that I have also implemented in the past by myself, but it only works with weights being integer numbers and >= 0
gaborous

2
This equation is wrong according to Wikipedia, Matlab, R, and others which are implementing this equation. The numerator here is squared, but it should NOT, it should be just like the (C) proposed by the OP. See en.wikipedia.org/wiki/…
gaborous

1
@rajatkhanduja I was not talking about the proof but the final derived equation (the top one in this answer). But indeed it's correct, the numerator is just squared because we multipy by V, thus the numerator ends up being unsquared. Anyway, this estimator remains biased as I explain in my answer below since it relies on "reliability"-type weights.
gaborous

7

Both A and C are correct, but which one you will use depends on what kind of weights you use:

  • A needs you to use "repeat"-type weights (integers counting the number of occurrences for each observation), and is unbiased.
  • C needs you to use "reliability"-type weights (either normalized weights or either variances for each observation), and is biased. It can't be unbiased.

The reason why C is necessarily biased is because if you don't use "repeat"-type weights, you lose the ability to count the total number of observations (sample size), and thus you can't use a correction factor.

For more info, check the Wikipedia article that was updated recently: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.