Ağırlıklı bir standart sapmayı nasıl hesaplarım? Excel'de?


29

Dolayısıyla, şöyle bir yüzdelik veri kümesine sahibim:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Yüzdelerin standart sapmasını bulmak istiyorum, ancak bunların veri hacmi için ağırlıklandırdım. yani, ilk ve son veri noktaları hesaplamaya hükmetmelidir.

Bunu nasıl yaparım? Ve bunu Excel'de yapmanın basit bir yolu var mı?


(M-1) / M formülü doğrudur. Bir şüpheniz varsa, tüm ağırlıkları 1'e eşit ayarlayarak kontrol edin ve paydayda (N-1) olan standart sapma için yansız kestirim için klasik formül elde edersiniz. Whuber: sıradışı yanlış demek değildir.

1
(M-1) / M formülü, DOĞRU DEĞİLDİR. Bir trilyonuncu ağırlığa sahip bir milyon puan eklediğinizi hayal edin. Bu ağırlığın ne olduğuna bakılmaksızın cevabınızı hiç değiştirmezsiniz, ancak teriminiz 1 olur? Kesinlikle hayır! Bunu önem veriyorsanız ( M - 1 ) / M 1 , o zaman da bu sadece yanlış olduğunu önemsiyorum. (M1)/M(M1)/M1
Rex Kerr

En yüksek oy doğrudur. Lütfen kontrol edin it.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf
Bo Wang

Burada neden standart sapma istediğinizi merak ediyorum ? sadece numaranız var! Bu nasıl bu kadar çok sayı? Özellikle yüzdeler daha kolay bir şekilde açıklanıp anlaşıldığında. 4
olasılık

@probabilityislogic, soruyu kısa tutmak için basitleştirilmiş bir örnekti.
Yahel

Yanıtlar:


35

Ağırlıklı standart sapma formülü olan:

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

nerede

N

M

wi

xi

x¯

Ağırlıklı ortalama formülünün:

x¯=i=1Nwixii=1Nwi.

İstenilen sonucu elde etmek için uygun ağırlıkları kullanın. Sizin durumunuzda sayısını kullanmanızı öneririmNumber of cases in segmentTotal number of cases

(xix¯)2


2
(M1)/M

4
@Aaron Ağırlıkları her zaman, bu soruda verilen ağırlıklar ile örneklendiği gibi, birliğin toplamı olarak tanımlanmaz!
whuber

2
(M1)/M

1
1(M1)/M

1
@Mikhail "Olağandışı" ve "doğru" birbirleriyle çok az alakası var. Ancak, olağandışı sonuçlar dolaylı olarak biraz daha fazla gerekçe gerektirmektedir, çünkü olağandışı olmak bir hatanın yapılmış olabileceğinin bir göstergesidir. Argümanınız geçersiz: formül gerçekten de tüm ağırlıklar eşit olduğunda tarafsız bir tahminci için bire indirgense de, bu eşitsiz ağırlıklar kullanıldığında tahmin edicinin tarafsız kalması anlamına gelmez. Sonucunuzun yanlış olduğunu iddia etmiyorum, ancak bugüne kadar geçerli bir gerekçe sunmadığını iddia ediyorum.
whuber

18

Formüller Wikipedia da dahil olmak üzere çeşitli yerlerde mevcuttur .

Anahtar, ağırlıkların ne anlama geldiğine bağlı olduğunu fark etmektir . Özellikle, ağırlıklar frekans ise (yani, toplamın toplamını eklemekten kaçınmaya çalışıyorsanız), ağırlıklar gerçekte her bir ölçümün varyansıysa ya da sadece bazı harici değerler ise farklı cevaplar alırsınız. verilerinize dayamak.

Sizin durumunuzda, yüzeysel olarak, ağırlıklar frekanslar gibi gözüküyor, ama değiller . Verilerinizi frekanslardan oluşturuyorsunuz, ancak veri kümenizde 45 kayıt 3 ve 15 kayıt 4'ten oluşan basit bir mesele değil. Bunun yerine, son yöntemi kullanmanız gerekir. (Aslında, tüm bu çöp - eğer gerçekten ! Sen görünüşte yok bu sayıları oluşturuyor sürecin daha gelişmiş modeli kullanmak gerekir değil Normalde dağıtılmış numaralar üzerinden şişler, bu nedenle standart sapma ile sistemden temel olduğunu şey var yapılacak doğru şey değil.)

Her durumda, "güvenilirlik" ağırlıkları ile (normal sapmadaki standart sapmayı hesapladığınız) varyans formülü,

wi(xix)2wiwi2wi

x=wixi/wi

Güvenilirlik ile orantılı olmak istediğinizi düşündüğüm ağırlıklar için bir tahmininiz yok. Yüzdeleri alarak, Bernoulli süreci tarafından oluşturulmuş olsalar bile analizleri zorlaştıracaktır, çünkü 20 ve 0 puan alırsanız sonsuz yüzdesiniz vardır. SEM'in tersine ağırlık vermek, yapmak için yaygın ve bazen en uygun şeydir. Belki bir Bayesian tahmini veya Wilson puan aralığı kullanmalısınız .


2
+1. Ağırlıkların farklı anlamlarının tartışılması, bu konu boyunca aradığım şeydi. Bu sitenin ağırlıklı istatistiklerle ilgili tüm sorularına önemli bir katkı sağlar. (Normal dağılımlar ve standart sapmalarla ilgili parantez içindeki açıklamalar konusunda biraz endişeliyim, çünkü yanlış bir şekilde SD'lerin normalliğe dayalı bir model dışında kullanılmadıklarını öne sürüyorlar.)
whuber

@ whuber - Tabii ki kurtarmaya merkezi limit teoremi! Fakat OP’nin yaptığı şey için, bu ortalama ve standart sapma ile sayı kümesini karakterize etmeye çalışmak kesinlikle tavsiye edilemez görünüyor. Ve genel olarak, birçok kullanım için standart sapma, birinin yanlış bir anlayış hissi vermesine neden olur. Örneğin, dağılım normal olan herhangi bir şey (veya bunun iyi bir yaklaşımı) ise, standart sapmaya güvenmek, muhtemelen istatistiki olarak en çok ilgilendiğiniz kuyruklar olduğunda, kuyrukların şekli hakkında kötü bir fikir verecektir. test yapmak.
Rex Kerr

@RexKerr Eğer insanlar üzerinde hak edilmeyen yorumlar yaparlarsa standart sapmayı suçlayamayız. Fakat, normallikten uzaklaşalım ve sonlu varyanslı (örneğin) çok daha geniş bir sürekli, simetrik unimodal dağılım sınıfını düşünelim. Daha sonra dağılımın yüzde 89 ila 100'ü iki standart sapma içinde kalıyor. Bunu bilmek genellikle oldukça faydalıdır (ve% 95'i ortada oldukça fazla yer almaktadır, bu nedenle hiçbir zaman yaklaşık% 7'den fazla değildir); birçok yaygın dağılımda, bırakma simetri yönü çok fazla değişmez (örneğin, üsteli inceleyin) ....
ctd

ctd ... - biz bu varsayımların herhangi yapmazsanız ya .. hep kuyrukları ve standart sapma hakkında en azından diyelim şey yapmak sıradan Chebyshev sınırları var
Glen_b -Reinstate Monica

1
@ Gabriel - Evet, üzgünüm, özensiz davranıyordum. (Bakarak hangisinin hangisi olduğunu söyleyebileceğini düşünüyorum.) Açıklamamı düzelttim.
Rex Kerr

5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

Sütun Gağırlıklar, Sütun Hdeğerlerdir


Ctrl + ÜstKrkt + Enter tuşlarına basmak benim için bir sonuçtu, fakat bu başka şekilde çalışıyor gibi görünüyor.
philipkd

1

pi=viivi,
vi

μ^=ipixi,
σ^2=ipi(xiμ^)2

0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function

2
Siteye Hoşgeldiniz @ uswer71015. Bu sadece kod gibi görünüyor. Kodun nasıl çalıştığına ve soruyu nasıl yanıtladığına ilişkin bir metin / açıklama ekleyebilir misiniz?
dediklerinin - Eski Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.