Standart bir sapma nasıl toplanır?


68

Bir değer için aylık ortalamaya ve bu ortalamaya karşılık gelen standart sapmaya sahibim. Şimdi yıllık ortalamayı aylık ortalamaların toplamı olarak hesaplıyorum, toplam ortalamanın standart sapmasını nasıl gösterebilirim?

Örneğin bir rüzgar çiftliğinden elde edilen verimi göz önünde bulundurarak:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Ortalama yılda rüzgar çiftliğinin 10,358 MWh ürettiğini söyleyebiliriz, ancak bu rakama karşılık gelen standart sapma nedir?


3
Şimdi silinmiş bir cevabı takip eden bir tartışma , bu sorudaki olası bir belirsizliğe işaret etti: aylık ortalamaların SD'sini mi arıyorsunuz ya da bu ortalamaların inşa edildiği tüm orijinal değerlerin SD'sini kurtarmak mı istiyorsunuz? Bu cevap, doğru bir şekilde, ikincisini isterseniz, aylık ortalamaların her birinde yer alan değerlerin sayısına ihtiyacınız olacağını belirtti.
whuber

1
Silinen başka bir cevaba yapılan yorum, bir toplamın bir ortalama olarak hesaplanmasının garip olduğuna işaret etti : elbette aylık ortalamaları ortalaması alıyorsunuz demektir . Ancak, istediğiniz tüm orijinal verilerin ortalamasını tahmin etmekse, böyle bir prosedür genellikle iyi bir sonuç değildir: ağırlıklı bir ortalamaya ihtiyaç vardır. Ve elbette, "toplanan ortalama" nın ne olduğu ve neyi temsil etmesi gerektiği açık olana kadar "toplanan ortalama için SD" ile ilgili sorunuza iyi bir cevap vermek mümkün değildir. Lütfen bunu bizim için açıklığa kavuştur.
whuber

@whuber Netleştirmek için bir örnek ekledim. Matematiksel olarak ortalamaların toplamının aylık ortalama zaman 12'ye eşit olduğuna inanıyorum.
klonq

2
Evet, klonq, bu çok makul bir istek. Ancak, bu cevaplar topluluk tarafından değil, sahibi tarafından silindi. Değerlerini korumak için, burada bu cevaplarda ortaya çıkan temel fikirleri ve yorumlarını aktarmaya çalıştım. BTW, son düzenlemeleriniz oldukça yardımcı oldu: insanlar örnek verileri görmekten hoşlanıyor.
whuber

1
Siteye Hoşgeldiniz @Hayden. Bu OP'nin sorusuna bir cevap değil. Lütfen cevap vermek için sadece "Cevabınız" alanını kullanın. Bir takip sorunuz varsa, [ASK QUESTION]en üstteki tıklayın ve orada isteyin, o zaman size doğru şekilde yardımcı olabiliriz. Burada yeni olduğunuz için yeni kullanıcılar için bilgiler içeren turumuza katılmak isteyebilirsiniz .
gung - Monica'yı yeniden yerleştirme

Yanıtlar:


66

Kısa cevap: Varyansların ortalaması ; daha sonra ortalama standart sapmayı elde etmek için karekök alabilirsiniz .


Örnek

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Ve sonra ortalama standart sapma olduğunusqrt(53,964) = 232


Gönderen normal olarak dağıtılmış rasgele değişkenlerin toplamı :

Eğer ve normal dağılmış bağımsız rasgele değişkenlerse (ve dolayısıyla aynı zamanda ortaklaşa), toplamları da normal dağılırXY

... iki bağımsız normal dağılıma rastgele değişkenin toplamı normaldir, ortalama iki aracın toplamı, varyansı ise iki farklılığın toplamıdır.

Ve Wolfram Alpha’nın Normal Toplam Dağılım’ından :

Şaşırtıcı bir şekilde, iki normal dağılmış bağımsız değişkenin toplamının ve değişkenlerinin ortalama ve değişkenlerle ve dağılımı sırasıyla başka bir normal dağılımdır.XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

bu demek oluyor ki

μX+Y=μX+μY

ve varyans

σX+Y2=σX2+σY2

Verileriniz için:

  • toplamı: 10,358 MWh
  • varyans: 647,564
  • standart sapma: 804.71 ( sqrt(647564) )

görüntü tanımını buraya girin

Yani sorunuzu cevaplamak için:

  • Standart bir sapma nasıl toplanır ?
  • Onları dörtlü olarak toplarsınız:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Kavramsal olarak varyansları toplarsınız, sonra standart sapmayı elde etmek için karekökü alırsınız.


Merak ettiğim için aylık ortalama güç ve onun standart sapmasını bilmek istedim . İndüksiyon aracılığıyla, 12 normal dağılıma ihtiyacımız vardır:

  • ortalamasının toplamı 10,358
  • varyansı toplamak 647,564

Bu, aylık ortalama 12 dağıtım olacaktır:

  • anlamı 10,358/12 = 863.16
  • varyansı 647,564/12 = 53,963.6
  • standart sapma sqrt(53963.6) = 232.3

görüntü tanımını buraya girin

Aylık ortalama dağıtımlarımızı, yıllık dağıtıma eşit olduklarını görmek için 12 kez ekleyerek kontrol edebiliriz:

  • Ortalama: 863.16*12 = 10358 = 10,358( doğru )
  • Varyans: 53963.6*12 = 647564 = 647,564( doğru )

Not : Formül resimlerimi dönüştürmek için ezoterik Lateks matematiği hakkında bilgili olan ve stackexchange formula codeformatlı formüllere sahip birisine bırakacağım .

Düzenleme : Kısa, noktaya kadar cevap, yukarı cevap verdim. Ben bugün yine bunu yapmak için gerekli, ancak istediğim için ben bir kez daha kontrol ortalama sapmaları .


3
Bunların hepsi ayların ilişkisiz olduğunu varsayıyor gibi görünüyor - bu varsayımı herhangi bir yerde açık mı yaptınız? Ayrıca neden normal dağılıma neden ihtiyacımız var? Eğer sadece değişkenlikten bahsediyorsak, bu gereksiz görünüyor - örneğin, buradaki
Macro

1
@Marco Çünkü resimlerde daha iyi düşünüyorum ve anlaşılması her şeyi kolaylaştırıyor.
Ian Boyd,

2
@Marco Ayrıca, bu sorunun (şimdi feshedilmiş) stats.stackexchange sitesinde başladığına inanıyorum. Bir formül duvarına daha basit, grafiksel ve daha az titiz işlemlerden daha az erişilebilir.
Ian Boyd

2
Bunun doğru olduğundan şüpheliyim. Her biri yalnızca tek bir ölçümle iki veri seti hayal edin. Her bir kümenin varyansları 0'dır, ancak eğer veri noktaları farklıysa her iki ölçümün de 0'dan büyük bir farkı vardır.
Njol

1
@Njol, bu yüzden tüm değişkenlerin normal dağılıma sahip olduğunu varsayıyoruz. Ve burada yapabiliriz, çünkü fiziksel ölçüm hakkında konuşuruz. Örneğinizde her iki değişken de normal dağılıma sahip değildir.
tworec

11

Bu eski bir sorudur ancak kabul edilen cevap aslında doğru veya tam değildir. Kullanıcı, ortalama ve standart sapmanın zaten her ay için hesaplanmış olduğu 12 aylık verilerin üzerindeki standart sapmayı hesaplamak istiyor. Her aydaki örnek sayısının aynı olduğunu varsayarak, her ayın verilerinden yıl boyunca örnek ortalamasını ve varyansını hesaplamak mümkündür. Basit olması için iki veri setine sahip olduğumuzu varsayalım:

X={x1,....xN}

Y={y1,....,yN}

Örnek ortalama ve örnek varyansının bilinen değerleri ile, , , , .μxμyσx2σy2

Şimdi aynı tahminleri hesaplamak istiyoruz.

Z={x1,....,xN,y1,...,yN} .

, şu şekilde hesaplandığını düşünün :μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Toplam sete göre ortalama ve varyansı tahmin etmek için hesaplamamız gerekir:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 kabul edilen cevabında verilmiştir. Varyans için ancak hikaye farklı:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Dolayısıyla, her bir alt kümedeki varyansa sahipseniz ve tüm kümedeki varyansı istiyorsanız, her birinin aynı ortalamaya sahip olması durumunda, her bir alt kümenin varyanslarını ortalayabilirsiniz. Aksi takdirde, her bir alt kümenin ortalamasının varyansını eklemeniz gerekir.

Diyelim ki yılın ilk yarısında günde tam 1000 MWh, ikinci yarıda ise günde 2000 MWh üretiyoruz. Daha sonra, birinci ve ikinci yarıda enerji üretiminin ortalaması ve varyansı ortalama için 1000 ve 2000'dir ve her iki yarı için de varyans 0'dır. Şimdi ilgilenebileceğimiz iki farklı şey var:

1- Tüm yıl boyunca enerji üretiminin varyansını hesaplamak istiyoruz : o zaman iki varyansın ortalamasını alarak sıfıra varıyoruz; bu, tüm yıl boyunca günlük enerji sabit olmadığı için doğru değil. Bu durumda, her bir alt kümedeki tüm araçların varyansını eklememiz gerekir. Matematiksel olarak bu durumda ilgilenilen rasgele değişken günlük enerji üretimidir. Alt kümeler üzerinde örnek istatistiklere sahibiz ve örnek istatistikleri daha uzun bir sürede hesaplamak istiyoruz.

2- Yıllık enerji üretiminin varyansını hesaplamak istiyoruz: Başka bir deyişle, enerji üretiminin bir yıldan diğer yıla ne kadar değiştiğiyle ilgileniyoruz. Bu durumda varyansın ortalaması, 0 olan doğru cevaba yol açar, çünkü her yıl ortalama olarak tam 1500 MHW üretiyoruz. Matematiksel olarak bu durumda ilgilenilen rasgele değişken, ortalama değerin tüm yıl boyunca yapıldığı günlük enerji üretimi ortalamasıdır.


1

Gerçekte ilginizi çekebilecek olan şeyin , standart sapma yerine standart hata olduğuna inanıyorum .

Ortalamanın standart hatası (SEM), numune ortalamasının bir popülasyon ortalamasının tahmininin standart sapmasıdır ve bu, yıllık MWh tahmininizin ne kadar iyi olduğunu size ölçecektir.

Hesaplaması çok kolaydır: aylık MWh ortalamalarınızı ve standart sapmalarınızı elde etmek için örnekleri kullanırsanız, standart sapmayı @IanBoyd'un önerdiği şekilde hesaplar ve numunenizin toplam boyutuna göre normalleştirirsiniz. Yani,s = n

s=s12+s22++s12212×n

1

Kabul edilen cevabın bir kısmındaki yanlışlığı tekrar vurgulamak istiyorum. Sorunun ifadesi karışıklığa yol açmaktadır.

Soru, her ayın Ortalama ve StdDev değerlerine sahiptir, ancak ne tür alt kümelerin kullanıldığı açık değildir. Tüm çiftliğin ortalama 1 rüzgar türbini mi yoksa bütün çiftliğin günlük ortalaması mı? Her ayın günlük ortalamasıysa, aynı ortalamayı almadıkları için yıllık ortalamayı elde etmek için aylık ortalamayı ekleyemezsiniz. Birim ortalama ise, soru belirtilmelidir

Ortalama yılda , rüzgar çiftliğindeki her türbinin 10.358 MWh ürettiğini söyleyebiliriz ...

Onun yerine

Ortalama yılda rüzgar çiftliğinin 10.358 MWh ürettiğini söyleyebiliriz ...

Dahası, Standart sapma veya varyans, kümenin kendi ortalamasına göre karşılaştırmadır. Tüm setin ortalaması ile ilgili hiçbir bilgi içermez .

Varyans örneği

Görüntünün çok doğru olması gerekmez, ancak genel fikri taşır. Görüntüdeki gibi 1 rüzgar çiftliğinin çıktısını hayal edelim. Gördüğünüz gibi, "yerel" varyansın, bunları nasıl eklediğiniz veya çarptığınız önemli değil, "global" varyansla ilgisi yoktur. 2 buçuk yılın varyansını kullanarak yılın varyansını tahmin edemezsiniz. Dolayısıyla, kabul edilen cevapta, toplam hesaplama doğru olsa da, aylık sayıyı almak için 12'ye bölünmek hiçbir şey ifade etmemektedir. . Üç bölümden birinci ve son bölüm yanlıştır, ikincisi doğrudur.

Yine çok yanlış bir uygulama, lütfen takip etmeyin yoksa başınızı belaya sokar. Her şey için hesaplanmış, her birimin toplam yıllık / aylık çıktısını, ister yıllık isterse aylık bir sayı isteyip istemediğinize bağlı olarak veri noktaları olarak kullanarak, doğru cevap olmalıdır. Muhtemelen böyle bir şey istersiniz. Bu benim rastgele oluşturulmuş numaralarım. Verilere sahipseniz, O2 hücresindeki sonuç sizin cevabınız olmalıdır.

görüntü tanımını buraya girin


Kabul edilen cevabın neden eksik olduğunu ve hatta yanlış olabileceğini anlamama yardımcı olan görüntü için çok teşekkür ederim. Çok iyi açıkladın, teşekkür ederim!
Kay

Bu oy kullanma tehlikesini göstermektedir. Oy verenler, cevabı bilmeyen kişilerdir. Kodlamanın aksine, oy kullananlar, kodu çalıştıran insanlar, oy ne kadar çoksa, cevap o kadar iyi olur. İstatistik / matematik için, daha fazla oy sadece onun daha çekici olduğu anlamına gelir.
Tam Le
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.