Standart sapma nedir?


31

Standart sapma nedir, nasıl hesaplanır ve istatistikte kullanımı nedir?


7
Bu sitenin amacı 6. sınıf öğrencilerine soruları cevaplamak olduğunu sanmıyorum. Ve çocuğum, böyle bir soru ile karşılaştığında, cevap için google olurdu. Tanımlamanın belli bir kısmı anlamadıysanız, isteyin. Ancak bu kadar temel bir konuya odaklanmamış bir soru (yine de bana) posterin bir cevap bulmaya çalışmadığını gösteriyor. Sırada ne olacak "Sayı nedir ve nasıl kullanılırlar?"
PeterR,

9
Bence bu soru tamam. Aslında, Alan 51'deki konu hakkındaki en çok oy alan örnek oldu. Temelleri burada tamam!
Peter Smit

6
Kabul, geçerli bir soru. Aynı zamanda, örneğin kullanım ve hesaplama için sorulduğu gibi ifade edilmektedir. Şüphesiz sitenin amacı TÜM sorular için istatistiksel bir depo oluşturmaktır.
Joel,

5
Joel ile aynı fikirdeyim. Standart sapma istatistikte önemli bir kavramdır. İstatistiksel sorular sorma hakkında bir sitede bir soru soramazsanız saçma olmaz mıydı.
Parbury

4
Eski bir hayattaki lise öğretmeni olarak aptalca bir soru olmadığını söyleyeceğim. Bir soruyu değersiz olarak etiketlediğiniz an, o an öğrenmenin en güçlü yolunu aldınız, bu sorular soruyor! (Bu soruyu aşağıda cevaplayacağım.)
Adhesh Josh

Yanıtlar:


30

Standart sapma, bir veri kümesinin "yayılmasını" veya "dağılmasını" temsil eden bir sayıdır. Menzil ve varyans gibi yayılma için başka önlemler de vardır.

İşte bazı örnek veri kümeleri ve bunların standart sapmaları:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Yukarıdaki veri setleri aynı ortalamaya sahiptir.

Sapma, "ortalamadan uzaklık" anlamına gelir.

Buradaki "Standart", "standartlaştırılmış" anlamına gelir; bu, standart sapma ve ortalamanın, varyanstan farklı olarak aynı birimlerde olduğu anlamına gelir.

Örneğin, ortalama yükseklik 2 metre ise, standart sapma 0,3 metre olabilir , varyans 0,09 metre kare olacaktır .

Her zaman veri noktalarının en az% 75'inin her zaman bilinmesi uygundur. ortalamanın 2 standart sapması içinde (veya dağılım Normal ise yaklaşık% 95) .

Örneğin, ortalama 100 ise ve standart sapma 15 ise, değerlerin en az% 75'i 70 ile 130 arasındadır.

Dağılım Normal olursa, değerlerin% 95'i 70 ile 130 arasındadır.

Genel olarak konuşursak, IQ test puanları normalde dağıtılır ve ortalama 100'dür. "Çok parlak" biri ortalamanın üstünde iki standart sapmadır, yani IQ test puanı 130'dur.


Neil, cevabınız için teşekkür ederim, "standart sapma" teriminin "standart" kısmını daha ayrıntılı olarak açıklar mısınız? Uygunsa, lütfen "ortalama" standart hatası "terimindeki aynı" standart "a dokunabilirsiniz. Şimdiden teşekkür ederim.
stan

Son düzenlemelerinizi yeniden yazın: SD hangi anlamda "standartlaştırılmış"? Genellikle, standardizasyonun temelini oluşturur, ancak kendisi standardize edilmez (örnekleme varyasyonunun bir tahminiyle yeniden ölçeklendirilmesi gibi).
whuber

Ortalama ile aynı birimde standart hale
getirildi

Ortalama 2 metre yüksekliğe sahip olan örnek, ondalık sayıların kullanımıyla ilgilenmeye ihtiyaç duymanın iyi bir örneğidir. Aynı örnek, 30 cm'lik standart bir sapmanın mantıksal olarak 900 cm'lik bir sapmadan kaynaklanabileceği santimetre cinsinden yapılabilir.
Robert Jones,

Benim izlenimim, birincil ölçüm birimlerinde bunlardan kaçınılması gerektiğidir. Sonuçları, metre, santimetre ve milimetreye dönüştürülen metre olarak 0.133 SD olduğunu söyleyin. Herhangi biri açıklığa kavuşmak ister misiniz, lütfen?
Robert Jones,

9

Wikipedia'dan bir alıntı .

Bu, "ortalama" dan ne kadar varyasyon olduğunu gösterir (ortalama veya beklenen / bütçelenmiş değer). Düşük bir standart sapma, veri noktalarının ortama çok yakın olma eğiliminde olduğunu gösterirken, yüksek standart sapma, verilerin geniş bir değer aralığına yayıldığını gösterir.


5

Bir değişkeni tanımlarken tipik olarak iki ölçü kullanarak özetleriz: bir merkez ölçüsü ve yayılma ölçüsü. Ortak merkez ölçüleri arasında ortalama, medyan ve mod bulunur. Yaygın yayılma ölçüsü varyansı ve çeyrekler arası aralığı içerir.

Ortalama bildirildiğinde, varyans (iktidara getirilen Yunan küçük harfli sigması tarafından temsil edilir) yaygın olarak kullanılır. Varyans, değişkenin ortalama kare sapmasıdır. Sapma, her gözlemden ortalamanın çıkarılmasıyla hesaplanır. Bu karelerdir çünkü toplam aksi takdirde sıfır olur ve kareler sapmaların göreceli boyutunu koruyarak bu sorunu giderir. Değişimi yayılmanın ölçüsü olarak kullanma sorunu, kare cinsinden olmasıdır. Örneğin, eğer ilgilenilen değişken değişken inç cinsinden yükseklikte ölçüldüyse, değişkenlik çok az anlamlı olan kare inç cinsinden bildirilir. Standart sapma (Yunanca küçük harf sigması tarafından temsil edilir), varyansın kareköküdür ve yayılma ölçüsünü orijinal birimlere döndürür.

When using the standard deviation, one has to be careful of outliers as they will skew the standard deviation (and the mean) as they are not resistant measures of spread. A simple example will illustrate this property. The mean of my terrible cricket batting scores of 13, 14, 16, 23, 26, 28, 33, 39, and 61 is 28.11. If we consider 61 to be an outlier and deleted it, the mean would be 24.


1
Graham, I wonder if there are some typos in your answer. Variance is represented by the Greek lowercase sigma raised to the power of 2 (i.e., σ2), and the standard deviation is the square-root of that, or just sigma without an exponent (i.e., σ). You may want to edit your answer.
gung - Reinstate Monica

2

Here's how I would answer this question using a diagram.

Let's say we weigh 30 cats and calculate the mean weight. Then we produce a scatter plot, with weight on the y axis and cat identity on the x axis. The mean weight can be drawn in as a horizontal line. We can then draw in vertical lines which connect each data point to the mean line - these are the deviations of each data point from the mean, and we call them residuals. Now, these residuals can be useful because they can tell us something about the spread of the data: if there are many big residuals, then cats vary a lot in mass. Conversely, if the residuals are mainly small, then cats are fairly closely clustered around the average weight. So if we could have some metric which tells us the average length of a residual in this data set, this would be a handy way of denoting how much spread there is in the data. The standard deviation is, effectively, the length of the average residual.

I would follow on on from this by giving the calculation for s.d., explaining why we square and then square root (I like Vaibhav's short and sweet explanation). Then I would mention the problems of outliers, as Graham does in his last paragraph.


1

If the information required is the distribution of data about the mean, standard deviation comes in handy.

The sum of the difference of each value from the mean is zero (obviously, since the value are evenly spread around the mean), hence we square each difference so as to convert negative values to positive, sum them across the population, and take their square root. This value is then divided by the number of samples (or, the size of the population). This gives the standard deviation.


".hence we square each difference...." We could take the absolute value to get rid of negative values too. So why is squaring a better method since we have to take a square root at the end? Why not just sum the absolute values of the deviations?
Dilip Sarwate

Seen This one? link
Vaibhav Garg

Yes, I had seen that link before. Had you? I fully understand the reasons why squaring is used, ever since I learned them over 45 years ago. I was questioning your authoritative use of the word hence in your phrase without any indication that you knew the justification for why the sum of squares is used instead of the sum of absolute values.
Dilip Sarwate

1
@DilipSarwate, with all due respect, Proof by authority does not impress me. The supposition that "hence" is "authoritative" is a "Straw-man" that I'd rather ignore. The level of detail in any given statement is commensurate with the inclination and/or the pedagogical significance of the same in a given context. I'd assume that a person who is asking "What is a standard deviation, how is it ....so forth?" may not wish to be burdened with rigorous mathematical definitions of the same. The simplification is deliberate and, let me assure you, not a result of not being aware.
Vaibhav Garg

1
And what, pray tell, is .."hence we square ..." other than a proof by authority that does not impress you? There is no logical reason why squaring is automatically the solution to the problem as your "hence" implies.
Dilip Sarwate

1

I like to think of it as follows: the standard deviation is the average distance from the average. This is more conceptually useful than mathematically useful, but its a nice way to explain it to the uninitiated.


0

A standard deviation is the square root of the second central moment of a distribution. A central moment is the expected difference from the expected value of the distribution. A first central moment would usually be 0, so we define a second central moment as the expected value of the squared distance of a random variable from its expected value.

To put it on a scale that is more in line with the original observations, we take the square root of that second central moment and call it the standard deviation.

Standard deviation is a property of a population. It measures how much average "dispersion" there is to that population. Are all the obsrvations clustered around the mean, or are they widely spread out?

To estimate the standard deviation of a population, we often calculate the standard deviation of a "sample" from that population. To do this, you take observations from that population, calculate a mean of those observations, and then calculate the square root of the average squared deviation from that "sample mean".

To get an unbiased estimator of the variance, you don't actually calculate the average squared deviation from the sample mean, but instead, you divide by (N-1) where N is the number of observations in your sample. Note that this "sample standard deviation" is not an unbiased estimator of the standard deviation, but the square of the "sample standard deviation" is an unbiased estimator of the variance of the population.


6
this is an incredibly unclear response. Please try to write in English.
Neil McGuigan

1
maybe so. is a person asking this question a person who walked in off the street, or a person who has at least opened a statistics book. Telling someone the standard deviation is just the square root of the variance is completely begging the question.
Baltimark

-1

The best way I have understood standard deviation is to think of a hair dresser! (You need to collect data from a hair dresser and averge her hair cutting speed for this example to work.)

It takes an average of 30 minutes for the hair dresser to cut a persons hair.

Suppose you do the calculation (most software packages will do this for you) and you find that the standard deviation is 5 minutes. It means the following:

  • the hair dresser cuts hair of 68% of her clients within 25 minutes and 35 minutes
  • the hair dresser cuts hair of 96% of her clients within 20 and 40 minutes

How do I know this? You need to look at the normal curve, where 68% falls within 1 standard deviation and 96% falls within 2 standard deviations of the mean (in this case 30 minutes). So you add or subtract the standard deviation from the mean.

If consistency is desired, as in this case, then the smaller the standard deviation, the better. In this case, the hair dresser spends a maximum of about 40 minutes with any given client. You need to cut hair fast in order to run a successful saloon!


I don't think you proofread your answer, Adhesh. You've got some contradictory information in here. See whether you agree with my edits, ok?
rolando2

1
You've only described the standard deviation's interpretation in the case of the normal distribution. The '68% rule' and (and 95% rule) only apply for normally distributed data. At least state that the two bullet points are only true if haircutting times follow a normal distribution.
Macro

Macro, I did mention the normal curve and it is a given that if you use the normal curve, the data would follow a normal distribution.
Adhesh Josh

@rolando2 I dont seem to understand what is wrong with Adhesh's explanation
Amarald

@Amarald - have you clicked on "Jan 31 at 1:06" to see the versions before and after editing? I think the answer is stronger after, though Macro makes an important point too.
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.