Standart sapma nedir, nasıl hesaplanır ve istatistikte kullanımı nedir?
Standart sapma nedir, nasıl hesaplanır ve istatistikte kullanımı nedir?
Yanıtlar:
Standart sapma, bir veri kümesinin "yayılmasını" veya "dağılmasını" temsil eden bir sayıdır. Menzil ve varyans gibi yayılma için başka önlemler de vardır.
İşte bazı örnek veri kümeleri ve bunların standart sapmaları:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Yukarıdaki veri setleri aynı ortalamaya sahiptir.
Sapma, "ortalamadan uzaklık" anlamına gelir.
Buradaki "Standart", "standartlaştırılmış" anlamına gelir; bu, standart sapma ve ortalamanın, varyanstan farklı olarak aynı birimlerde olduğu anlamına gelir.
Örneğin, ortalama yükseklik 2 metre ise, standart sapma 0,3 metre olabilir , varyans 0,09 metre kare olacaktır .
Her zaman veri noktalarının en az% 75'inin her zaman bilinmesi uygundur. ortalamanın 2 standart sapması içinde (veya dağılım Normal ise yaklaşık% 95) .
Örneğin, ortalama 100 ise ve standart sapma 15 ise, değerlerin en az% 75'i 70 ile 130 arasındadır.
Dağılım Normal olursa, değerlerin% 95'i 70 ile 130 arasındadır.
Genel olarak konuşursak, IQ test puanları normalde dağıtılır ve ortalama 100'dür. "Çok parlak" biri ortalamanın üstünde iki standart sapmadır, yani IQ test puanı 130'dur.
Wikipedia'dan bir alıntı .
Bu, "ortalama" dan ne kadar varyasyon olduğunu gösterir (ortalama veya beklenen / bütçelenmiş değer). Düşük bir standart sapma, veri noktalarının ortama çok yakın olma eğiliminde olduğunu gösterirken, yüksek standart sapma, verilerin geniş bir değer aralığına yayıldığını gösterir.
Bir değişkeni tanımlarken tipik olarak iki ölçü kullanarak özetleriz: bir merkez ölçüsü ve yayılma ölçüsü. Ortak merkez ölçüleri arasında ortalama, medyan ve mod bulunur. Yaygın yayılma ölçüsü varyansı ve çeyrekler arası aralığı içerir.
Ortalama bildirildiğinde, varyans (iktidara getirilen Yunan küçük harfli sigması tarafından temsil edilir) yaygın olarak kullanılır. Varyans, değişkenin ortalama kare sapmasıdır. Sapma, her gözlemden ortalamanın çıkarılmasıyla hesaplanır. Bu karelerdir çünkü toplam aksi takdirde sıfır olur ve kareler sapmaların göreceli boyutunu koruyarak bu sorunu giderir. Değişimi yayılmanın ölçüsü olarak kullanma sorunu, kare cinsinden olmasıdır. Örneğin, eğer ilgilenilen değişken değişken inç cinsinden yükseklikte ölçüldüyse, değişkenlik çok az anlamlı olan kare inç cinsinden bildirilir. Standart sapma (Yunanca küçük harf sigması tarafından temsil edilir), varyansın kareköküdür ve yayılma ölçüsünü orijinal birimlere döndürür.
When using the standard deviation, one has to be careful of outliers as they will skew the standard deviation (and the mean) as they are not resistant measures of spread. A simple example will illustrate this property. The mean of my terrible cricket batting scores of 13, 14, 16, 23, 26, 28, 33, 39, and 61 is 28.11. If we consider 61 to be an outlier and deleted it, the mean would be 24.
Here's how I would answer this question using a diagram.
Let's say we weigh 30 cats and calculate the mean weight. Then we produce a scatter plot, with weight on the y axis and cat identity on the x axis. The mean weight can be drawn in as a horizontal line. We can then draw in vertical lines which connect each data point to the mean line - these are the deviations of each data point from the mean, and we call them residuals. Now, these residuals can be useful because they can tell us something about the spread of the data: if there are many big residuals, then cats vary a lot in mass. Conversely, if the residuals are mainly small, then cats are fairly closely clustered around the average weight. So if we could have some metric which tells us the average length of a residual in this data set, this would be a handy way of denoting how much spread there is in the data. The standard deviation is, effectively, the length of the average residual.
I would follow on on from this by giving the calculation for s.d., explaining why we square and then square root (I like Vaibhav's short and sweet explanation). Then I would mention the problems of outliers, as Graham does in his last paragraph.
If the information required is the distribution of data about the mean, standard deviation comes in handy.
The sum of the difference of each value from the mean is zero (obviously, since the value are evenly spread around the mean), hence we square each difference so as to convert negative values to positive, sum them across the population, and take their square root. This value is then divided by the number of samples (or, the size of the population). This gives the standard deviation.
A standard deviation is the square root of the second central moment of a distribution. A central moment is the expected difference from the expected value of the distribution. A first central moment would usually be 0, so we define a second central moment as the expected value of the squared distance of a random variable from its expected value.
To put it on a scale that is more in line with the original observations, we take the square root of that second central moment and call it the standard deviation.
Standard deviation is a property of a population. It measures how much average "dispersion" there is to that population. Are all the obsrvations clustered around the mean, or are they widely spread out?
To estimate the standard deviation of a population, we often calculate the standard deviation of a "sample" from that population. To do this, you take observations from that population, calculate a mean of those observations, and then calculate the square root of the average squared deviation from that "sample mean".
To get an unbiased estimator of the variance, you don't actually calculate the average squared deviation from the sample mean, but instead, you divide by (N-1) where N is the number of observations in your sample. Note that this "sample standard deviation" is not an unbiased estimator of the standard deviation, but the square of the "sample standard deviation" is an unbiased estimator of the variance of the population.
The best way I have understood standard deviation is to think of a hair dresser! (You need to collect data from a hair dresser and averge her hair cutting speed for this example to work.)
It takes an average of 30 minutes for the hair dresser to cut a persons hair.
Suppose you do the calculation (most software packages will do this for you) and you find that the standard deviation is 5 minutes. It means the following:
How do I know this? You need to look at the normal curve, where 68% falls within 1 standard deviation and 96% falls within 2 standard deviations of the mean (in this case 30 minutes). So you add or subtract the standard deviation from the mean.
If consistency is desired, as in this case, then the smaller the standard deviation, the better. In this case, the hair dresser spends a maximum of about 40 minutes with any given client. You need to cut hair fast in order to run a successful saloon!