Standart hata ve standart sapma arasındaki fark


96

Standart hata ile standart sapma arasındaki farkı anlamakta güçlük çekiyorum. Nasıl farklılar ve neden standart hatayı ölçmeniz gerekiyor?


7
Hızlı bir yorum, iki faydalı cevap zaten mevcut olduğundan cevap değil: standart sapma rasgele değişken (ler) in (dağılımının) bir özelliğidir. Standart hata, bunun yerine belirli bir numunedeki ölçümle ilgilidir. Evren ve numuneniz arasındaki farkı bulanıklaştırırken, ikisi karışabilir.
Francesco,

Yanıtlar:


31

σ/nσ


3
Re: "... tutarlı olan, standart hatalarının 0'a düştüğü anlamına gelir" - bu doğru değil. Bu tartışmayı hatırlıyor musunuz: stats.stackexchange.com/questions/31036/… ?
Makro,

1
Tabii ki, olağandışı istisnaların tartışıldığını hatırlıyorum ve soruyu cevapladığımda bunu düşünüyordum. Ancak soru standart hatalarla ilgiliydi ve basit terimlerle iyi parametre tahminleri tutarlı ve örnek ortalamalarında olduğu gibi standart hatalarının 0 olması bekleniyor.
Michael Chernick

4
Yorumunuza katılıyorum - örnek ortalamanın standart hatası 0'a gidiyor ve örnek ortalaması tutarlı. Ancak sıfıra gitme konusundaki standart hatası, tutarlı olduğu gerçeğinin bir sonucu değildir (cevabınızın söylediği gibi).
Makro,

3
@Macro evet, cevabını belirlemeye karar verdim ki iyileştirilebilir. OP'lerle çok teknik olmamanın önemli olduğunu düşünüyorum, çünkü her şeyi nitelemek karmaşık ve kafa karıştırıcı olabilir. Ancak teknik doğruluk basitlik için feda edilmemelidir. Bu yüzden, düzenlememde bunu ele almanın yolunu yapmanın en iyi yolu olduğunu düşünüyorum.
Michael Chernick

9
Kesinlikle gerekli olmadıkça teknik olmamak önemlidir. Tek yorumum, bir kez tutarlılık kavramını (teknik bir kavram) tanıtmayı seçtiyseniz, cevabı daha kolay anlaşılması için yanlış bir şekilde tanımlamanın bir faydası olmadığıydı. Düzenlemenizin yorumlarıma hitap ettiğini düşünüyorum.
Makro

51

İşte daha pratik (matematiksel olmayan) bir cevap:

  • SD (standart sapma) saçılımı ölçer - değerlerin birbirinden ne kadar değiştiği.
  • SEM (ortalamanın standart hatası), popülasyonun gerçek ortalamasını ne kadar tam olarak bildiğinizi belirler. Hem SD'nin değerini hem de örneklem boyutunu dikkate alır.
  • Hem SD hem de SEM aynı birimdedir - veri birimleri.
  • SEM, tanımı gereği, her zaman SD'den daha küçüktür.
  • SEM, numuneleriniz büyüdükçe küçülür. Bu mantıklıdır, çünkü büyük bir numunenin ortalaması gerçek popülasyon ortalamasına küçük bir numunenin ortalamasına göre daha yakındır. Çok büyük bir örneklemle, veriler çok dağınık olsa bile ortalamanın değerini çok hassas bir şekilde bilirsiniz.
  • Daha fazla veri elde ettikçe SD tahmin edilebileceği gibi değişmiyor. Bir örnekten hesapladığınız SD, toplam popülasyonun SD'sinin mümkün olan en iyi tahminidir. Daha fazla veri topladıkça, nüfusun SD'sini daha kesin bir şekilde değerlendirirsiniz. Ancak daha büyük bir numuneden elde edilen SD'nin küçük bir numuneden elde edilen SD'den daha büyük veya daha küçük olacağını tahmin edemezsiniz. (Bu bir basitleştirme, oldukça doğru değil. Aşağıdaki yorumlara bakınız.)

Standart hataların, yalnızca ortalamadan değil, verilerden hesapladığınız hemen hemen tüm parametreler için hesaplanabileceğini unutmayın. "Standart hata" ifadesi biraz belirsizdir. Yukarıdaki noktalar sadece ortalamanın standart hatasını gösterir.

( Yazdığım GraphPad İstatistik Kılavuzundan .)


11
n100n.18n=2

4
@ whuber: Elbette haklısın. Siz daha fazla veri eklerken tahmin edilebilir bir şekilde değişmeyecek olan varyanstır (SD karesi). Numune boyutu arttıkça, özellikle küçük numunelerle başladığınızda SD biraz daha büyür. Bu değişiklik, numune büyüklüğü değiştikçe SEM'deki değişime kıyasla çok küçüktür.
Harvey Motulsky

@HarveyMotulsky: Neden sd artıyor?
Andrew

Büyük örneklerde, örnek varyans popülasyon varyansına oldukça yakın olacak, bu nedenle örnek SD popülasyon SD'ye yakın olacaktır. Daha küçük örneklerde, örnek varyansı ortalama olarak popülasyon varyansını eşitleyecektir, ancak tutarsızlıklar daha büyük olacaktır. Değişkenler olarak simetrik ise, SD kadar asimetrik olurlar. Örnek: Nüfus varyansı 100'dür. İki örnek varyansı 80 veya 120'dir (simetrik). Numune SD 10 olmalı, ancak 8.94 veya 10.95 olacaktır. Nüfus varyansı etrafındaki simetrik bir dağılımdan elde edilen ortalama numune SD'leri ve ortalama SD düşük N ile düşük olacaktır
Harvey Motulsky

43

θx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^θ^(x)θ^


1
Standart tahmin hatası, tahmin edilen değişkenin standart sapmasına eşit midir?
Yurii

6

(sorgulayıcının da olduğuna inandığım ortalamanın standart hatasına odaklandığımı, ancak herhangi bir örnek istatistik için standart bir hata oluşturabileceğinizi unutmayın)

Standart hata, standart sapma ile ilgilidir, ancak aynı şey değildir ve numune büyüklüğünün artması onları birbirine daha da yakınlaştırmaz. Aksine, onları daha uzak yapar. Numunenin standart sapması, numune büyüklüğü arttıkça standart hatayla popülasyon standart sapmasına yaklaşır.

Bazen bunun etrafındaki terminoloji geçmesi biraz kalın.

Bir örnek topladığınızda ve o numunenin standart sapmasını hesapladığınızda, örnek büyüklük arttıkça standart sapmanın tahmini daha fazla ve doğru olur. Sorunuzdan, düşündüğünüz şey buydu. Fakat aynı zamanda, örneklemin ortalamasının, ortalama olarak nüfus ortalamasına daha yakın olma eğiliminde olduğunu düşünün. Bu standart hatayı anlamak için kritik öneme sahiptir.

Standart hata, belirli bir boyutta birden fazla örnek elde ederseniz ne olacağı ile ilgilidir. 10 örnek alırsanız ortalamanın bir tahminini alabilirsiniz. Ardından, 10 ve yeni ortalama tahmininin bir başka örneğini alırsınız. Bu örneklerin araçlarının standart sapması standart hatadır. Sorunuzu ortaya attığınızdan, muhtemelen N'nin yüksek olması durumunda standart hatanın daha küçük olduğunu, çünkü örneklerin araçlarının gerçek değerden daha fazla sapma ihtimalinin daha düşük olacağına dair muhtemelen şimdi görebilirsiniz.

Bazılarına bunu bir örnekle hesapladığın için biraz mucizevi geliyor. Yani, yapabileceğiniz şey, ilişkiyi göstermek için simülasyon yoluyla standart bir hatayı önyüklemek. R'de şöyle görünürdü:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Bu son iki komutun aynı sayıyı ürettiğini göreceksiniz (yaklaşık olarak). N, m ve s değerlerini değiştirebilirsiniz; bunlar her zaman birbirlerine oldukça yakın görünürler.


Bunu gerçekten yararlı buldum, gönderdiğiniz için teşekkürler. Standart hatayı "örnekleme dağılımının standart sapması" olarak tanımlamak adil olur mu? Örnekleme dağılımı yukarıdaki kod bloğunuzda y oluyor mu? Bu beni şaşırttı, sd örnek parametrelerini birleştirdi ve örnekleme dağıtım parametreleriyle kastetti.
Doug Fir

1
Bu durumda, örnek araçlar belirtmek için ifadelerinizi değiştirirseniz, evet.
John
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.