Bugün bir giriş istatistik dersi verdim ve bir öğrenci bana şu şekilde yeniden sorduğum bir soru ile geldi: "Standart sapma neden N üzerindeki karelerin toplamı sqrt olarak değil, varyans sql olarak tanımlanıyor?"
Nüfus varyansını tanımlarız:
Ve standart sapma: .
Σ ' ya verebileceğimiz yorum , popülasyondaki birimlerin X popülasyon ortalamasından ortalama sapmasını vermesidir. .
Ancak, sd tanımında kareler toplamının sqrt'ını . Öğrencinin gündeme getirdiği soru, neden kareler karesinin karesiniyerinebölmüyoruz. Böylece rakip formüle geliyoruz:
Bu sorunun aptalca olmadığını düşündüm. Öğrenciye sd'nin ortalama kare sapma olan varyansın sqrt'ı olarak tanımlandığını söylemekten daha ileriye giden bir cevap vermek istiyorum . Başka bir deyişle, öğrenci neden doğru formülü kullanmalı ve fikrini takip etmemeli?
Bu soru daha eski bir konu ve burada verilen cevaplarla ilgilidir . Oradaki cevaplar üç yöne gidiyor:
- ortalamadan "tipik" sapma değil, yani ortalama karekök (RMS) sapmasıdır (yani ). Böylece farklı tanımlanır.
- Güzel matematiksel özelliklere sahiptir.
- Ayrıca, sqrt orijinal birimlerine "birimleri" geri getirecektir. Bununla birlikte, bunun yerine N ile bölen için de durum söz konusudur .
Nokta 1 ve 2'nin her ikisi de sd'yi RMS olarak destekleyen argümanlardır, ancak kullanımına karşı bir argüman görmüyorum . Ortalama RMS mesafe kullanımının giriş seviyesi öğrencilerin ikna etmek için iyi argümanlar ne olurdu ortalama den?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Sorunun içinde parantez içindeki şey bir şekilde kaybolmuş olabilir mi?