Ben istatistiklerde bir çaylağım, bu yüzden lütfen bana burada yardımcı olabilir misiniz?
Sorum şu: Havuzlanmış varyans aslında ne anlama geliyor?
İnternette toplanmış varyans için bir formül aradığımda, aşağıdaki formülü kullanarak çok fazla literatür buluyorum (örneğin, burada: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):
Ama aslında ne hesaplıyor? Çünkü bu formülü havuzlanmış varyansı hesaplamak için kullandığımda yanlış cevap veriyor.
Örneğin, şu "üst örnek" i düşünün:
Bu üst numune varyansını , ve ortalama bir ˉ x p = 5 .
Şimdi, bu ana örneği iki alt örneğe böldüğümü varsayalım:
- İlk alt-örnek 2,2,2,2,2, ortalama ve varyans S 2 1 = 0'dır .
- İkinci alt örnek 8,8,8,8,8'dir ve ortalama ve varyans S 2 2 = 0'dır .
Şimdi, açık bir şekilde, bu iki alt-numunelerin toplanmış / üst varyansın hesaplanmasında, yukarıdaki formül kullanılarak, çünkü sıfır üretecek ve S 2 = 0 . Peki bu formül aslında ne hesaplıyor?
Öte yandan, bazı uzun türevlerden sonra, doğru havuzlanmış / ebeveyn varyansını üreten formülü buldum:
Yukarıdaki formülde, ve d 2 = ¯ x 2 - ˉ x p .
Benimle benzer bir formül buldum, örneğin burada: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html ve ayrıca Wikipedia'da. Her ne kadar benimki gibi görünmediklerini itiraf etmeliyim.
Peki yine, birleştirilmiş varyans aslında ne anlama geliyor? İki alt örnekten ana numunenin varyansı anlamına gelmemeli midir? Yoksa burada tamamen yanılıyorum?
Şimdiden teşekkür ederim.
DÜZENLEME 1: Birisi yukarıdaki iki alt örneğimin sıfır varyansa sahip oldukları için patolojik olduğunu söylüyor. Size farklı bir örnek verebilirim. Şu ana örneği düşünün:
Bu üst numune varyansını , ve ortalama bir ˉ x p = 25.5 .
Şimdi, bu ana örneği iki alt örneğe böldüğümü varsayalım:
- İlk alt örnek, ortalama ve varyans S 2 1 = 2.5 ile 1,2,3,4,5'tir .
- İkinci alt örnek, ortalama ve varyans S 2 2 = 2.5 ile 46,47,48,49,50'dir .
Şimdi, toplanmış varyansı hesaplamak için "literatürün formülü" nü kullanırsanız, 2.5 elde edersiniz, bu tamamen yanlıştır, çünkü üst / toplanmış varyans 564.7 olmalıdır. Bunun yerine, "formülüm" ü kullanırsanız, doğru cevabı alırsınız.
Lütfen anlayın, burada formülün yanlış olduğunu insanlara göstermek için aşırı örnekler kullanıyorum. Çok fazla varyasyonu olmayan (normal durumlar) "normal veriler" kullanırsam, bu iki formülden elde edilen sonuçlar çok benzer olacaktır ve insanlar formülün kendisi olduğu için değil, yuvarlama hatası nedeniyle farkı göz ardı edebilir yanlış.