Ağırlıklı Varyans, bir kez daha


17

Tarafsız ağırlıklı varyans zaten burada ve başka yerlerde ele alınmıştı, ancak hala şaşırtıcı miktarda karışıklık var gibi görünüyor. Vikipedi makalesinde olduğu gibi ilk bağlantıda sunulan formüle yönelik bir fikir birliği olduğu anlaşılmaktadır . Bu aynı zamanda R, Mathematica ve GSL tarafından kullanılan formüle benziyor (ancak MATLAB değil). Bununla birlikte, Wikipedia makalesi, ağırlıklı bir varyans uygulaması için büyük bir akıl sağlığı kontrolü gibi görünen aşağıdaki satırı da içerir:

Örneğin, {2,2,4,5,5,5} değerleri aynı dağıtımdan çizilirse, bu kümeye ağırlıksız bir örnek gibi davranabilir veya ağırlıklı örnek olarak {2,4, 5} ile karşılık gelen ağırlıkları {2,1,3} ve aynı sonuçları almalıyız.

Hesaplamalarım orijinal değerlerin varyansı için 2.1667 ve ağırlıklı varyans için 2.9545 değerini vermektedir. Gerçekten onların aynı olmasını beklemeli miyim? Neden ya da neden olmasın?


6
Bu soru gerçekten uygulama ile ilgili değil, arkasındaki teori
karıştıCoder

Yanıtlar:


16

Evet, her iki örneğin de (ağırlıksız ve ağırlıklı) aynı sonuçları vermesini beklemelisiniz.

Wikipedia makalesinden iki algoritmayı uyguladım.

Bu işe yarıyor:

Her durumunda xi aynı dağıtım ve tam sayı ağırlıkları çekilir wi numunede ortaya çıkma sıklığını göstermektedir, daha sonra ağırlıklı nüfus varyans tarafsız tahmin ile elde edilir:

s2 =1V11i=1Nwi(xiμ)2,

Ancak bu (kesirli ağırlıklar kullanarak) benim için çalışmıyor:

Her bir xi , 1/wi varyanslı bir Gauss dağılımından çekilirse, ağırlıklı popülasyon varyansının tarafsız tahmincisi şu şekilde verilir:

s2 =V1V12V2i=1Nwi(xiμ)2

Hala ikinci denklemin amaçlandığı gibi çalışmadığının nedenlerini araştırıyorum.

/ EDIT: İkinci denklemin düşündüğüm gibi çalışmamasının nedenini buldum: ikinci denklemi yalnızca normal ağırlık veya varyans ("güvenilirlik") ağırlıklarınız varsa kullanabilirsiniz ve eğer tarafsız DEĞİLDİR, çünkü eğer "tekrar" ağırlıklarını kullanın (bir gözlemin kaç kez gözlemlendiğini ve böylece matematik işlemlerinizde tekrarlanması gerektiğini) kullanın, toplam gözlem sayısını sayma yeteneğinizi kaybedersiniz ve böylece bir düzeltme faktörü kullanamazsınız.

Bu, sonuçlarınızdaki ağırlıklı ve ağırlıklı olmayan varyansı kullanarak farkı açıklar: hesaplamanız önyargılıdır.

Bu nedenle, tarafsız ağırlıklı bir varyansa sahip olmak istiyorsanız, sadece "tekrar" ağırlıkları kullanın ve yukarıda gönderdiğim ilk denklemi kullanın. Bu mümkün değilse, yardım edemezsiniz.

Daha fazla bilgi istiyorsanız Wikipedia makalesini de güncelledim: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Ve tarafsız ağırlıklı kovaryans hakkında bağlantılı bir makale (aslında aynı varyans Polarizasyon Kimliği ): Ağırlıklı tarafsız örnek kovaryans için doğru denklem


Bu konuda çok okuduktan ve düşündükten sonra hala "güvenilirlik ağırlıkları" teriminin sezgisel bir anlamını veya örneğini alamıyorum. Bu konuda biraz ayrıntı verebilir misiniz?
Peter

@Peter güvenilirlik ağırlıkları, örn., 0 ve 1 veya -1 ve 1 arasında sınırlandırılmış normalleştirilmiş ağırlıklardır. Bunlar, bir frekansı temsil eder (örn., 0.1, bu numunenin diğer tüm numunelere kıyasla sürenin% 10'u görüldüğü anlamına gelir). Bu terimi icat etmedim, yayınlarda bulunabilir. Tekrar ağırlıkları için bunun tersi, her ağırlık meydana gelenlerin sayısını, kardinaliteyi temsil eder (örneğin, numune 10 kez gözlemlendiğinde 10).
gaborous

Bu kafa karıştırıcıdır, çünkü tekrar ağırlıkları olarak adlandırdığınız şeye sık sık frekans ağırlıkları da denir , ancak bence farkı aldım. Normalleşmeye bağlıdır, değil mi?
Peter

Hayır, frekans ağırlıkları güvenilirlik ağırlıkları için alternatif bir isimdir. Tekrar ağırlıklar için, sıklık değil, gerçekleşme sayısıdır. Tekrar ağırlıklar ile hiç normalizasyon yoktur, mesele budur: ağırlıklarınızı normalleştirdiğiniz sürece taban frekansını kaybedersiniz, böylece hesaplamalarınızı tamamen kaldıramazsınız. Tek yol, toplam olay sayısını korumaktır. Eğer gerçekten frekans ağırlıklarını kullanmak istiyorsanız, sanırım frekans ağırlıklarını N ile çarparak tekrar tekrar dönüştürebileceğiniz toplam N tekrar sayısını önceden kaydederseniz, sorun olmaz.
gaborous

Ve ağırlıklarınız 1 / varyans ağırlıklarıysa, bunlara nasıl denirsiniz? O zaman bu "güvenilirlik ağırlıkları" olur mu?
Tom Wenseleers
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.