Standart sapma ve varyans hakkında laymen öğreten birçok pratik yapın.
TL; DR; Ortalamaya olan mesafelerin ortalaması gibi bir şey. (Bu özlü versiyonda biraz kafa karıştırıcı ve yanıltıcıdır. Öyleyse makalenin tamamını okuyun)
Layman'ın ortalamaları bildiğini varsayıyorum. SD'yi tanımanın ve hataları tahmin etmenin önemi hakkında konuşuyorum (aşağıdaki PS'ye bakınız). Sonra yüksek matematik veya kutsal istatistik bilgisinin kullanılamayacağına söz veriyorum - sadece kuru bir mantık ve saf mantık.
Sorun. Diyelim ki bir termometremiz var (işitsellere neyin daha yakın olduğuna bağlı olarak bir ölçüm cihazı seçiyorum).
Aynı sıcaklıkta N ölçüm yaptık ve termometre bize 36.5, 35.9, 37.0, 36.6, ... gibi bir şey gösterdi (resme bakın). Gerçek sıcaklığın aynı olduğunu biliyoruz, ancak termometre her ölçümde bize biraz yalan söylüyor.
Bu küçük pisliğin bize ne kadar yalan söylediğini nasıl tahmin edebiliriz?
Ortalamayı hesaplayabiliriz (aşağıdaki resimdeki kırmızı çizgiye bakınız). İnanabilir miyiz? Ortalamadan sonra bile, ihtiyaçlarımız için yeterli hassasiyete sahip mi?
En kolay yaklaşım . En uzak noktayı alabiliriz, ortalama ile kırmızı çizgi arasındaki mesafeyi hesaplayabiliriz ve şunu söyleyebiliriz ki, termometre bize bu şekilde yatmaktadır, çünkü gördüğümüz maksimum hatadır. Tahmin edilebilir, en iyi tahmin değildir. Resme bakarsak, puanların çoğu ortalama bir seviyede, sadece bir noktaya nasıl karar verebiliriz? Aslında bu tahminlerin kaba ve genellikle kötü olmasının nedenlerini belirleme konusunda pratik yapabilirsiniz.
Varyans . O zaman ... tüm mesafeleri alıp ortalama mesafeyi hesaplayalım !
(xi−x¯)x¯xi
O zaman, ortalama mesafe formülünün her şeyi toplayıp N'ye böldüğünü düşünebiliriz:
∑(xi−x¯)N
Ama bir problem var. Örneğin kolayca görebiliriz. bu 36.4 ve 36.8, 36.6 ile aynı mesafede bulunmaktadır. ancak değerleri yukarıdaki formüle koyarsak, -0.2 ve +0.2 değerlerini alırız ve toplamları 0 olur, ki istediğimiz bu değildir.
Tabeladan nasıl kurtulurum? (Bu noktada, meslekten olmayan kişiler genellikle "Mutlak değeri al" deyin ve "mutlak değeri almanın biraz yapay, başka bir yol nedir?" Önerisini alın.). Değerleri karıştırabiliriz! Sonra formül:
∑(xi−x¯)2N
Bu formüle istatistiklerde "Varyans" denir. Ve termometre (ya da her neyse) değerlerimizin yayılımını tahmin etmek için sadece maksimum mesafeyi almaktan çok daha iyi uyuyor.
°C2°F2
∑(xi−x¯)2N−−−−−−−−−−√
σ
Bu noktada bir meslekten olmayan kimse, buraya nasıl geldiğimizi ve standart sapma / varyansın nasıl çalıştığını oldukça net bir şekilde anlıyor. Bu noktadan sonra, örnekleme ve popülasyon hakkında da tanımlayan 68-95-99.7 kuralına gidiyorum, standart hataya karşılık standart sapma koşulları vb.
SD konuşma örneğini tanımanın PS Önemi:
Diyelim ki 1 000 000 dolara mal olan bir ölçüm cihazınız var . Ve size cevabı verir: 42. Birinin 42'ye 1 000 000 dolar ödediğini düşünüyor musunuz ? Phooey! Biri bu cevabın kesinliği için 1000 000 ödedi. Çünkü Değer - Hatalarını bilmeden hiçbir maliyeti yoktur. Hata için ödeme yaparsınız, değer için değil. İşte güzel bir hayat örneği.
Ortak hayatta çoğu zaman mesafeyi ölçmek için cetvel kullanıyoruz. Cetvel (ABD'de değilseniz) bir milimetre civarında size hassasiyet verir. Milimetrenin ötesine geçmek ve 0.1 mm hassasiyetle bir şey ölçmek zorunda kalırsanız ne olur? - Muhtemelen bir kumpas kullanırsın. Şimdi, en ucuz cetvelin (ancak yine de milimetre hassasiyetli) sente mal olduğunu, iyi pergelin onuncu dolara mal olduğunu kontrol etmek kolaydır. 1 hassasiyet için bir fiyatın 2 büyüklüğü. Ve bu, bir hata için ne kadar ödeme yaptığınızla ilgili çok olağandır.