Sezgim, standart sapmanın şudur: Verilerin yayılmasının bir ölçüsü.
Geniş ya da dar olmasının, verinin dağıtımı için temel varsayımımızın ne olduğuna bağlı olduğuna dair iyi bir noktaya sahipsiniz.
Uyarma: Verilerinizin dağılımı ortalamanın etrafında simetrik olduğunda ve Normal dağılımınkine nispeten yakın bir varyansa sahip olduğunda, bir yayılma ölçüsü en yararlıdır. (Bu yaklaşık Normal olduğu anlamına gelir.)
Verilerin yaklaşık olarak Normal olması durumunda standart sapmanın kanonik bir yorumu vardır:
- Bölge: Örnek ortalama +/- 1 standart sapma, verilerin yaklaşık% 68'ini içerir
- Bölge: Örnek ortalama +/- 2 standart sapma, verilerin yaklaşık% 95'ini içerir
- Bölge: Örnek ortalama +/- 3 standart sapma, verilerin yaklaşık% 99'unu içerir
( Wiki'deki ilk grafiğe bakın )
Bu, eğer nüfus ortalamasının 5 olduğunu ve standart sapmanın 2,83 olduğunu ve dağılımın yaklaşık olarak Normal olduğunu varsaydığımızı söylersek, size çok fazla gözlem yaparsak (% 5) 0,4 = 5 - 2 * 2,3'ten küçük veya 9,6 = 5 + 2 * 2,3'ten büyük.
Standart sapmanın güven aralığımız üzerindeki etkisi nedir? (ne kadar yayılırsa belirsizlik artar)
Ayrıca, verilerin yaklaşık olarak normal olmadığı, ancak yine de simetrik olduğu genel durumda, bunun için bir miktar olduğunu biliyorsunuz :α
- Bölge: Örnek ortalama +/- standart sapma, verinin kabaca% 95'ini içerirα
bir alt örnekten öğrenebilir veya olduğunu varsayabilir ve bu, kafanızda gelecekteki hangi gözlemlerin beklenebileceğini veya yeni gözlemlerden hangisinin dikkate alınabileceğini hesaplamak için genellikle iyi bir kural sağlar. aykırı. (Ancak akılda ihmal tutmak!)αα=2
Nasıl yorumlaman gerektiğini anlamıyorum. 2.83, değerlerin çok geniş yayıldığı veya ortalama olarak sıkıca kümelenmiş olduğu anlamına mı geliyor?
Sanırım "geniş ya da sıkı" diye soran her soru da şunu içermelidir: "neye göre?". Bir öneri, referans olarak iyi bilinen bir dağıtım kullanmak olabilir. Bağlama bağlı olarak şöyle düşünmek yararlı olabilir: "Normal / Poisson'tan daha mı geniş veya daha mı?".
EDIT: Yorumlardaki faydalı bir ipucuna dayanarak, standart sapma ile ilgili bir mesafe ölçüsü olarak bir yön daha.
Yine, standart sapma faydalı olan diğer bir sezgi numune veriler arasında bir mesafe ölçüsü olduğunu ve ortalama :sNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
Karşılaştırma olarak, istatistikteki en popüler hata ölçütlerinden biri olan ortalama kare hatası (MSE) şöyle tanımlanır:
MSE=1n∑ni=1(Yi^−Yi)2
Yukarıdaki mesafeden neden fonksiyon çıkıyor? Neden kare mesafeler ve örneğin mutlak mesafeler değil? Ve neden karekök alıyoruz?
Kuadratik mesafe veya hataya sahip fonksiyonlar, onları hem ayırt edebilmemiz hem de kolayca minimize edebilmemiz avantajına sahiptir. Karekök söz konusu olduğunda, hatayı tekrar gözlemlenen verilerimizin ölçeğine dönüştürdüğü için yorumlanabilirliğe eklenir.