Birleştirilmiş varyans "aslında" ne anlama geliyor?


15

Ben istatistiklerde bir çaylağım, bu yüzden lütfen bana burada yardımcı olabilir misiniz?

Sorum şu: Havuzlanmış varyans aslında ne anlama geliyor?

İnternette toplanmış varyans için bir formül aradığımda, aşağıdaki formülü kullanarak çok fazla literatür buluyorum (örneğin, burada: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Ama aslında ne hesaplıyor? Çünkü bu formülü havuzlanmış varyansı hesaplamak için kullandığımda yanlış cevap veriyor.

Örneğin, şu "üst örnek" i düşünün:

2,2,2,2,2,8,8,8,8,8

Bu üst numune varyansını , ve ortalama bir ˉ x p = 5 .Sp2=10x¯p=5

Şimdi, bu ana örneği iki alt örneğe böldüğümü varsayalım:

  1. İlk alt-örnek 2,2,2,2,2, ortalama ve varyans S 2 1 = 0'dır .x¯1=2S12=0
  2. İkinci alt örnek 8,8,8,8,8'dir ve ortalama ve varyans S 2 2 = 0'dır .x¯2=8S22=0

Şimdi, açık bir şekilde, bu iki alt-numunelerin toplanmış / üst varyansın hesaplanmasında, yukarıdaki formül kullanılarak, çünkü sıfır üretecek ve S 2 = 0 . Peki bu formül aslında ne hesaplıyor?S1=0S2=0

Öte yandan, bazı uzun türevlerden sonra, doğru havuzlanmış / ebeveyn varyansını üreten formülü buldum:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

Yukarıdaki formülde, ve d 2 = ¯ x 2 - ˉ x p .d1=x1¯x¯pd2=x2¯x¯p

Benimle benzer bir formül buldum, örneğin burada: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html ve ayrıca Wikipedia'da. Her ne kadar benimki gibi görünmediklerini itiraf etmeliyim.

Peki yine, birleştirilmiş varyans aslında ne anlama geliyor? İki alt örnekten ana numunenin varyansı anlamına gelmemeli midir? Yoksa burada tamamen yanılıyorum?

Şimdiden teşekkür ederim.


DÜZENLEME 1: Birisi yukarıdaki iki alt örneğimin sıfır varyansa sahip oldukları için patolojik olduğunu söylüyor. Size farklı bir örnek verebilirim. Şu ana örneği düşünün:

1,2,3,4,5,46,47,48,49,50

Bu üst numune varyansını , ve ortalama bir ˉ x p = 25.5 .Sp2=564.7x¯p=25.5

Şimdi, bu ana örneği iki alt örneğe böldüğümü varsayalım:

  1. İlk alt örnek, ortalama ve varyans S 2 1 = 2.5 ile 1,2,3,4,5'tir .x¯1=3S12=2.5
  2. İkinci alt örnek, ortalama ve varyans S 2 2 = 2.5 ile 46,47,48,49,50'dir .x¯2=48S22=2.5

Şimdi, toplanmış varyansı hesaplamak için "literatürün formülü" nü kullanırsanız, 2.5 elde edersiniz, bu tamamen yanlıştır, çünkü üst / toplanmış varyans 564.7 olmalıdır. Bunun yerine, "formülüm" ü kullanırsanız, doğru cevabı alırsınız.

Lütfen anlayın, burada formülün yanlış olduğunu insanlara göstermek için aşırı örnekler kullanıyorum. Çok fazla varyasyonu olmayan (normal durumlar) "normal veriler" kullanırsam, bu iki formülden elde edilen sonuçlar çok benzer olacaktır ve insanlar formülün kendisi olduğu için değil, yuvarlama hatası nedeniyle farkı göz ardı edebilir yanlış.


Yanıtlar:


13

Basitçe ifade etmek gerekirse, toplanan varyans, bu varyansların eşit olduğu varsayımı / kısıtı altında, her bir örnek içindeki varyansın (tarafsız) bir tahminidir.

Bu, toplanmış varyans için Wikipedia girişinde bir miktar açıklanır, motive edilir ve analiz edilir .

O mu değil sen sözde gibi iki ayrı numune birleştirerek oluşturulan yeni bir "meta-numunenin" varyansını tahmin ediyoruz. Daha önce keşfettiğiniz gibi, tahmin etmek tamamen farklı bir formül gerektirir.


"Eşitlik" varsayımı (yani, aynı nüfus bu örnekleri gerçekleştirmiştir) genel olarak ne olduğunu tanımlamak için gerekli değildir - "havuzda". Havuzlanmış sadece ortalama, omnibus anlamına gelir (Tim hakkındaki yorumuma bakın).
ttnphns

@ttnphns Eşitlik varsayımının, toplanmış varyansa, örnekleme varyansları üzerinde gerçekleştirdiği matematiksel işlemi sözlü olarak tanımlamanın ötesine geçen kavramsal bir anlam (OP'nin istediği) vermek için gerekli olduğunu düşünüyorum. Nüfus sapmalarının eşit olduğu varsayılmazsa, toplanan varyansı tahmin etmek için neleri düşünebileceğimiz belirsizdir. Tabii ki, bunu sadece iki varyansın bir birleşimi olarak düşünebilir ve bırakabiliriz, ancak varyansları ilk etapta birleştirmek için herhangi bir motivasyon olmadığında bu pek aydınlatıcı değildir.
Jake Westfall

Jake, OP'nin özel sorusu göz önüne alındığında bununla aynı fikirde değilim, ama "toplanmış" kelimesinin tanımı hakkında konuşmak istedim, bu yüzden "genel olarak" dedim.
ttnphns

@JakeWestfall Cevabınız şu ana kadarki en iyi yanıt. Teşekkür ederim. Yine de bir şey hakkında net değilim. Wikipedia'ya göre, havuzlanmış varyans, her popülasyonun ortalaması farklı olabileceği zaman birkaç farklı popülasyonun varyansını tahmin etmek için bir yöntemdir , ancak her popülasyonun varyansının aynı olduğu varsayılabilir .
Hanciong

@JakeWestfall: İki farklı popülasyondan toplanmış varyansı farklı yollarla hesaplıyorsak, aslında ne hesaplıyor? Çünkü ilk varyans birinci ortalamaya göre varyasyon ölçmektedir ve ikinci varyans ikinci ortalamaya göre değişmektedir. Hesaplamadan hangi ek bilgilerin elde edilebileceğini bilmiyorum.
Hanciong

10

Birleştirilmiş varyans, farklı örneklerden varyansları ağırlıklı ortalamalarını alarak ve "toplam" varyansı elde etmek için birleştirmek için kullanılır . Örneğinizin problemi, patolojik bir durum olmasıdır, çünkü alt numunelerin her birinin sıfıra eşit varyansı vardır. Bu patolojik vakanın genellikle karşılaştığımız verilerle çok az ortak noktası vardır, çünkü her zaman biraz değişkenlik vardır ve değişkenlik yoksa, bilgi içermedikleri için bu değişkenleri umursamayız. Bunun çok basit bir yöntem olduğunu ve hiyerarşik veri yapılarında bu tür sorunlara eğilimli olmayan varyansı tahmin etmenin daha karmaşık yolları olduğunu fark etmelisiniz.

nkx1,1,x2,1,,xn1,k,xn,kixi,jj-indeksi grup dizinleri anlamına gelir. Mümkün olan birkaç senaryo var, tüm noktaların aynı dağıtımdan geldiğini varsayabilirsiniz (basitlik için normal dağılımı varsayalım),

(1)xi,jN(μ,σ2)

alt numunelerin her birinin kendi ortalaması olduğunu varsayabilirsiniz.

(2)xi,jN(μj,σ2)

veya kendi varyansı

(3)xi,jN(μ,σj2)

ya da her birinin kendine özgü parametreleri var

(4)xi,jN(μj,σj2)

Varsayımlarınıza bağlı olarak, verileri analiz etmek için belirli bir yöntem yeterli olabilir veya olmayabilir.

İlk durumda, grup içi varyansları tahmin etmekle ilgilenmezsiniz, çünkü hepsinin aynı olduğunu varsayarsınız. Bununla birlikte, global varyansı grup varyanslarından toplarsanız, varyans tanımı olduğundan havuzlanmış varyans kullanmakla aynı sonucu elde edersiniz

Var(X)=1n1i(xiμ)2

and in pooled estimator you first multiply it by n1, then add together, and finally divide by n1+n21.

In the second case, means differ, but you have a common variance. This example is closest to your example in the edit. In this scenario, the pooled variance would correctly estimate the global variance, while if estimated variance on the whole dataset, you would obtain incorrect results, since you were not accounting for the fact that the groups have different means.

In the third case it doesn't make sense to estimate the "global" variance since you assume that each of the groups have its own variance. You may be still interested in obtaining the estimate for the whole population, but in such case both (a) calculating the individual variances per group, and (b) calculating the global variance from the whole dataset, can give you misleading results. If you are dealing with this kind of data, you should think of using more complicated model that accounts for the hierarchical nature of the data.

The fourth case is the most extreme and quite similar to the previous one. In this scenario, if you wanted to estimate the global mean and variance, you would need a different model and different set of assumptions. In such case, you would assume that your data is of hierarchical structure, and besides the within-group means and variances, there is a higher-level common variance, for example assuming the following model

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

where each sample has its own means and variances μj,σj2 that are themselves draws from common distributions. In such case, you would use a hierarchical model that takes into consideration both the lower-level and upper-level variability. To read more about this kind of models, you can check the Bayesian Data Analysis book by Gelman et al. and their eight schools example. This is however much more complicated model then the simple pooled variance estimator.


I have updated my question with different example. In this case, the answer from "literature's formula" is still wrong. I understand that we are usually dealing with "normal data" where there is no extreme case like my example above. However, as mathematicians, shouldn't you care about which formula is indeed correct, instead of which formula applies in "everyday/common problem"? If some formula is fundamentally wrong, it should be discarded, especially if there is another formula which holds in all cases, pathological or not.
Hanciong

Btw you said there are more complicated ways of estimating variance. Could you show me these ways? Thank you
Hanciong

2
Tim, pooled variance is not the total variance of the "combined sample". In statistics, "pooled" means weighted averaged (when we speak of averaged quantities such as variances, weights being the n's) or just summed (when we speak of sums such as scatters, sums-of-squares). Please, reconsider your terminology (choice of words) in the answer.
ttnphns

1
Albeit off the current topic, here is an interesting question about "common" variance concept. stats.stackexchange.com/q/208175/3277
ttnphns

1
Hanciong. I insist that "pooled" in general and even specifically "pooled variance" concept does not need, in general, any assumption such as: groups came from populations with equal variances. Pooling is simply blending (weighted averaging or summing). It is in ANOVA and similar circumstances that we do add that statistical assumption.
ttnphns

1

The problem is if you just concatenate the samples and estimate its variance you're assuming they're from the same distribution therefore have the same mean. But we are in general interested in several samples with different mean. Does this make sense?


0

The use-case of pooled variance is when you have two samples from distributions that:

  • may have different means, but
  • which you expect to have an equal true variance.

An example of this is a situation where you measure the length of Alice's nose n times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.

In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.


Thank you for your answer, but I still don't understand about one thing. The first data gives you the variance with respect to Alice's nose length, and the second data gives you the variance with respect to Bob's nose length. If you are calculating a pooled variance from those data, what does it mean actually? Because the first variance is measuring the variation with respect to Alice's, and the second with respect to Bob's, so what additional information can we gained by calculating their pooled variance? They are completely different numbers.
Hanciong

0

Through pooled variance we are not trying to estimate the variance of a bigger sample, using smaller samples. Hence, the two examples you gave don't exactly refer to the question.

Pooled variance is required to get a better estimate of population variance, from two samples that have been randomly taken from that population and come up with different variance estimates.

Example, you are trying to gauge variance in the smoking habits of males in London. You sample two times, 300 males from London. You end up getting two variances (probably a bit different!). Now since, you did a fair random sampling (best to your capability! as true random sampling is almost impossible), you have all the rights to say that both the variances are true point estimates of population variance (London males in this case).

But how is that possible? i.e. two different point estimates!! Thus, we go ahead and find a common point estimate which is pooled variance. It is nothing but weighted average of two point estimates, where the weights are the degree of freedom associated with each sample.

Hope this clarifies.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.