Standart hata ile standart sapma arasındaki farkı anlamakta güçlük çekiyorum. Nasıl farklılar ve neden standart hatayı ölçmeniz gerekiyor?
Standart hata ile standart sapma arasındaki farkı anlamakta güçlük çekiyorum. Nasıl farklılar ve neden standart hatayı ölçmeniz gerekiyor?
Yanıtlar:
İşte daha pratik (matematiksel olmayan) bir cevap:
Standart hataların, yalnızca ortalamadan değil, verilerden hesapladığınız hemen hemen tüm parametreler için hesaplanabileceğini unutmayın. "Standart hata" ifadesi biraz belirsizdir. Yukarıdaki noktalar sadece ortalamanın standart hatasını gösterir.
(sorgulayıcının da olduğuna inandığım ortalamanın standart hatasına odaklandığımı, ancak herhangi bir örnek istatistik için standart bir hata oluşturabileceğinizi unutmayın)
Standart hata, standart sapma ile ilgilidir, ancak aynı şey değildir ve numune büyüklüğünün artması onları birbirine daha da yakınlaştırmaz. Aksine, onları daha uzak yapar. Numunenin standart sapması, numune büyüklüğü arttıkça standart hatayla popülasyon standart sapmasına yaklaşır.
Bazen bunun etrafındaki terminoloji geçmesi biraz kalın.
Bir örnek topladığınızda ve o numunenin standart sapmasını hesapladığınızda, örnek büyüklük arttıkça standart sapmanın tahmini daha fazla ve doğru olur. Sorunuzdan, düşündüğünüz şey buydu. Fakat aynı zamanda, örneklemin ortalamasının, ortalama olarak nüfus ortalamasına daha yakın olma eğiliminde olduğunu düşünün. Bu standart hatayı anlamak için kritik öneme sahiptir.
Standart hata, belirli bir boyutta birden fazla örnek elde ederseniz ne olacağı ile ilgilidir. 10 örnek alırsanız ortalamanın bir tahminini alabilirsiniz. Ardından, 10 ve yeni ortalama tahmininin bir başka örneğini alırsınız. Bu örneklerin araçlarının standart sapması standart hatadır. Sorunuzu ortaya attığınızdan, muhtemelen N'nin yüksek olması durumunda standart hatanın daha küçük olduğunu, çünkü örneklerin araçlarının gerçek değerden daha fazla sapma ihtimalinin daha düşük olacağına dair muhtemelen şimdi görebilirsiniz.
Bazılarına bunu bir örnekle hesapladığın için biraz mucizevi geliyor. Yani, yapabileceğiniz şey, ilişkiyi göstermek için simülasyon yoluyla standart bir hatayı önyüklemek. R'de şöyle görünürdü:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Bu son iki komutun aynı sayıyı ürettiğini göreceksiniz (yaklaşık olarak). N, m ve s değerlerini değiştirebilirsiniz; bunlar her zaman birbirlerine oldukça yakın görünürler.