Ortalama mutlak sapma ve standart sapma


35

Greer (1983) tarafından yayınlanan "O Seviyesi için Yeni Kapsamlı Matematik" kitabında , şöyle hesaplanan ortalama sapma görüyorum:

Tekli değerler ile ortalama arasındaki mutlak farkları toplayın. O zaman ortalamasını alın. Bölüm boyunca ortalama sapma terimi kullanılmaktadır.

Ancak son zamanlarda standart sapma terimini kullanan birkaç referans gördüm ve bu onların yaptıkları:

Tekli değerler ile ortalama arasındaki farkların karelerini hesaplayın. Sonra onların ortalamasını ve nihayetinde cevabın kökünü alın.

Her iki yöntemi de ortak bir veri setinde denedim ve cevapları farklı. Ben istatistikçi değilim. Çocuklarıma sapma öğretmeye çalışırken kafam karıştı.

Kısacası, standart sapma ve ortalama sapma terimleri aynı mı, yoksa eski ders kitabım yanlış mı?


2
İki miktar farklılık gösterir. Verileri farklı şekilde ağırlıklandırırlar. Standart sapma daha büyük olacak ve daha büyük değerlerden nispeten daha fazla etkilenecektir. Standart sapma (özellikle n-payda versiyonu) kök-ortalama-kare sapma olarak düşünülebilir. Standart sapmalar daha yaygın kullanılır.
Glen_b

6
Çok yakından ilişkili : stats.stackexchange.com/questions/118/… .
whuber


1
Bu arada, insanların standart sapmayı tercih etme eğiliminin bir nedeni, ilgisiz rasgele değişkenlerin toplamlarının varyanslarının eklenmesidir (ve ilişkili olanlar da basit bir formüle sahiptir). Bu, ortalama sapma ile olmaz.
Glen_b -Reinstate Monica 15:15

2
@Alexis ifadesi zayıftı. Bağımsız rastgele değişkenler için Var (X + Y) = Var (X) + Var (Y). Bu gerçek yerinde (tanıdık yol açar her yerinde kullanılır nİçerdiği formülleri standartlaştırırken kullanılan terimler, örneğin bir örneklem t-istatistiklerinde olduğu gibi). Ortalama sapma için buna uygun genel bir gerçek yoktur.
Glen_b -Reinstate Monica

Yanıtlar:


27

Her ikisi de, değerlerin gözlemlerin ortalarına ne kadar yayıldığını cevaplar.

Ortalamanın altında 1 olan bir gözlem, ortalamanın 1 üzerinde olan bir değer olarak ortalamanın eşitinde "uzak" tır. Bu nedenle, sapma belirtisini ihmal etmelisiniz. Bu iki şekilde yapılabilir:

  • Sapmaların mutlak değerini hesaplayın ve bunları toplayın.

  • Sapmaların karesini alın ve bu kareleri toplayın. Kare nedeniyle, yüksek sapmalara daha fazla ağırlık verirsiniz ve bu nedenle bu karelerin toplamı, araçların toplamından farklı olacaktır.

"Mutlak sapmaların toplamı" veya "kare sapmaların toplamının karekökü" nü hesapladıktan sonra, sırasıyla "ortalama sapma" ve "standart sapma" almak için onları ortalamalandırın.

Ortalama sapma nadiren kullanılır.


Yani bir kişi basitçe 'sapma' derken, 'standart sapma' anlamına mı geliyor?
itsols,

Yukarıdaki veya altındaki 1'in, ortak bir erkeğin bakış açısından anlamlı bir 'değişiklik' veya 'dağılma' göstereceği konusunda hemfikirim. Ancak kareler daha büyük değerler verecektir ve bu benim 'gerçek değişimim' olmayabilir. Belki yanılıyorum ama bu şekilde görüyorum: /
itsols 12:14

Çoğu zaman standart sapma (varyansın karekökü) terimi kullanılır. Karelerin hesaplanması tipik olarak yapılır, çünkü birçok başka hesaplamayı kolaylaştırır.
Kasper

1
@itsols Teknik olarak, her zaman veri seti için hesapladığınız sapma istatistiklerini tanımlamanız gerekir - tek başına sapma kelimesi tek bir veri noktasının ortalamadan sapmasına işaret etmelidir (Kasper bunu cevapta kullandığı şekilde). ).
AmeliaBR

@itsols, +1 ila Amelia. Gerçekten, hiç kimse veri kümesi istatistiklerinden sadece “sapma” olarak bahsetmiyor. Bir istatistik "ortalama mutlak sapma" veya "ortalama kare sapmanın kökü" dür.
ttnphns,

15

Günümüzde istatistiksel değerler, ağırlıklı olarak elde tutulan hesap makineleri tarafından değil, bilgisayar programları (Excel, ...) tarafından hesaplanmaktadır. Dolayısıyla, "ortalama sapma" hesaplamasının "standart sapma" hesaplamasından daha hantal olmadığını söyleyebilirim. Her ne kadar standart sapma "... istatistiklerde daha faydalı kılan matematiksel özelliklere" sahip olabilse de, aslında, ortalamadan uzağa veri noktalarına ekstra ağırlık vermesi nedeniyle bir ortalamadan varyans kavramının bozulmasıdır. Biraz zaman alabilir, ancak birincisi, istatistikçilerin veri noktaları arasındaki dağılımı tartışırken daha sık "ortalama sapma" kullanmaya geri döneceklerini umuyorum - aslında dağılım hakkında nasıl düşündüğümüzü daha doğru bir şekilde gösterir.


(İstatistiksel olarak nitelikli) insanların “gerçekte nasıl düşündükleri” hakkında olağanüstü bir iddiada bulunuyorsunuz. Bununla ilgili bilgilerinizin kaynağı nedir?
whuber

7
Kaynak basitçe bu konuda sorguladığım insanlar ve kendim. Sorulduğunda: Bu veri kümesindeki varyasyonu nasıl resmediniz? Cevap her zaman ortalamadan doğrusal uzaklık olarak ifade edildi - cevap asla kareler veya karekökler içermiyordu. Kabul ediyorum, ben bir mühendisim, "istatistikçi" değil, ama başkalarından bu konuda kendileriyle mücadele etmelerini isterim. Evet, standart sapmanın matematiğini seviyoruz - eğlenceli, ama bu gerçekten ortalamadan sapmayı nasıl görüyorsunuz?
andyl

2
Amacına bağlı. Veri araştırması için, ruhsal olarak teklifinize yakın olan medyanlardan sapma gibi, sağlam, rütbe dayalı dağılma tahminlerini kullanma eğilimindeyim. Ancak, birçok başka çalışma için, özellikle istatistiksel olarak anlamlı olma potansiyelini değerlendirirken (zihinsel olarak), uygun örneklem büyüklüklerini tahmin ederken, bilginin değerini belirlerken ve rekabet eden istatistiksel prosedürler arasında karar verirken, varyans açısından (ve dolayısıyla standart sapmalar) esansiyel. Matematiğin açıkça gösterdiği gibi, ortalama sapmalar yerine geçmez.
whuber

1
Bu makaleye göz atın .
Pete,

@Pete Oraya nasıl ulaştınız?
Vicrobot

9

Her ikisi de aynı kavramı ölçer, ancak eşit değildir.

Karşılaştırıyorsunuz ile1nΣ|xben-x¯|. İki nedenden dolayı eşit değiller:1nΣ(xben-x¯)2

Öncelikle karekök operatörü doğrusal değil veya . Bu nedenle, mutlak sapmaların toplamı, kare sapmaların toplamının kareköküne eşit değildir, bununla birlikte mutlak fonksiyon, bir kare kök tarafından takip edilen kare fonksiyonu olarak temsil edilebilir:| xi- ˉ x |bir+bbir+b
Toplam hesaplandıktan sonra karekök olarak( x i - as x ) 2 alınmaktadır.Σ|xben-x¯|=Σ(xben-x¯)2Σ(xben-x¯)2

İkincisi , şimdi standart sapma hesaplamasında karekök altında.n

Hesaplamayı deneyin 1nΣ(xben-x¯)2

Standart sapmanın tercih edilmesinin nedeni, hesaplamalar daha karmaşık hale geldiğinde daha sonra çalışmak matematiksel olarak daha kolay olmasıdır.


3
Bir toplamın mutlak değeri, genel olarak, mutlak değerlerin toplamıyla aynı değildir ! Ne kare, karekök, ne de mutlak işlevler doğrusal değildir, bu nedenle işlevi uyguladıktan sonra toplamı, işlevi aldıktan sonra işlevi uygulamaktan farklıdır.
AmeliaBR

@AmeliaBR elbette tamamen doğru!
ltronneberg

Argümanın geri kalanı iyiydi, bu yüzden sorunlu ifadeyi düzenlemeye karar verdim.
AmeliaBR

8

@ itsols, ben Kasper'in bu önemli fikrine ekleyeceğim The mean deviation is rarely used. Neden standart sapma genel olarak ortalama mutlak sapmadan daha iyi bir değişkenlik ölçüsü olarak kabul edilir? Çünkü aritmetik ortalama , en küçük kareler toplamının odağıdır. ondan (ve mutlak toplamlar) sapmalarının .

Fedakarlık derecesini değerlendirmek istediğinizi varsayalım. Öyleyse, muhtemelen bir kişiye yaşamın "genel durumu" ndan ne kadar para vermeye hazır olduğunu sormayacaksınız. Daha ziyade, kendisinin yaşamı için mümkün olan en az kaynakları olan, bulunduğu durumda, ne kadar yapmaya hazır olduğunu sormayı seçeceksiniz. Bir başka deyişle, bir bireyin asgari düzeyde olduğu durumlarda, bireysel fedakarlık miktarı nedir?

Aynı şekilde, bu verilerin değişkenlik derecesi nedir? Sezgisel olarak, bunun için en iyi ölçüm endeksi, bu bağlamda sınırına kadar küçültülmüş (veya büyütülmüş) olanıdır. Bağlam "aritmetik ortalamanın etrafında" dır. Sonra st. sapma bu anlamda en iyi seçimdir. Bağlam "medyanın etrafında" olsaydı, ortalama | sapma | en iyi seçenek, çünkü medyan, ondan mutlak sapmaların minimum toplamının odağıdır.


4
Locus'a dayanan SD gerekçeniz daireseldir. Aritmetik ortama özel bir önem vererek SD'yi haklı çıkarıyorsunuz - tüm bu gösterilerin bir ilişki olduğunu, SD'nin özel olmadığını gösteriyor. Benzer şekilde, minimum miktardaki absalut kaybının yeri olan medyan üzerinde de önem verilebilir . SD'nin daha sık kullanılmasının asıl nedenleri, matematiğin birlikte çalışmasının daha kolay olması ... bunun yanında, hesaplama açısından daha kolaydır (hem medyanlar "sıralama" gerektirdiğinden, hem de kareler hesaplama yapmak için dal ifadelerinden daha hızlı olduğu için). Felsefi olarak absalute sapma daha büyük değere sahiptir.
samthebest

7

Eklemeye değer bir şey, 30 yaşındaki ders kitabınızın standart sapma yerine mutlak ortalama sapmayı kullanmasının en muhtemel nedeni, elle hesaplamanın daha kolay olmasıdır (kare / kare kökü yok). Artık hesap makinelerine lise öğrencilerinin kolayca ulaşabileceği bir yerde, standart sapmalarını hesaplamalarını istememek için hiçbir neden yok.

Hala karmaşık model montajında ​​standart sapmalar yerine mutlak sapmaların kullanıldığı bazı durumlar vardır. Mutlak sapmalar, standart sapmalara kıyasla aşırı aykırı değerlere (ortalama / trend çizgisinden uzak değerler) daha az hassastır, çünkü diğer veri noktalarından değerlere eklemeden önce bu mesafeyi kare yapmazlar. Model uydurma yöntemleri, eğilim çizgisinden toplam sapmayı azaltmayı amaçladığı için (hangi yöntem sapmasına göre hesaplanırsa), standart sapmayı kullanan yöntemler, uç noktaya yakın olmak için noktaların çoğunluğundan uzaklaşan bir eğilim çizgisi oluşturabilir . Mutlak sapmaların kullanılması, bu çarpılmayı azaltır, ancak trend çizgisinin hesaplanmasının daha karmaşık hale getirilmesi pahasına.

Bunun nedeni, diğerlerinin de belirttiği gibi, standart sapma, istatistikte genellikle daha kullanışlı hale getiren matematiksel özelliklere ve ilişkilere sahiptir. Ancak "faydalı" hiçbir zaman mükemmelle karıştırılmamalıdır.


1
merak ediyorum, SD'yi mutlak sapmadan daha kullanışlı kılan "matematik özellikleri" nedir? Bu arada mükemmel bir cevap.
Weipeng L

pongba Standart sapma, birbirlerini iptal edebilecek (diğer bir deyişle normal olarak dağıtılmış veriler) birden fazla efektten rastgele değişiklik gösteren pek çok istatistiksel modelin özündedir. Bu, büyük bir popülasyondan bir anket kullanılırken örnekleme doğruluğunu (hata payı) içerir. Verileriniz bu modeli karşılarsa, ortalamadan SD sayısından bir değer alma olasılığını tahmin edebilirsiniz. Bağımsız bileşenlerin SD'lerini, ayrı bileşenlerin SD'lerinden hesaplayabilirsiniz. Ayrıca bakınız: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

Her ikisi de, verilerin ortalamasına olan mesafesini hesaplayarak verilerinizin dağılımını ölçer .

  1. ortalama mutlak sapma da adlandırılır (norm L1 kullanan Manhattan mesafe veya düz mesafeden )
  2. standart sapma normu L2 kullanarak (diğer adıyla Öklit mesafesi )

İki norm arasındaki fark, standart sapmanın farkın karesini hesaplamasıdır, oysa ortalama mutlak sapma sadece mutlak farka bakmaktadır. Bu nedenle, büyük aykırı değerler, diğer yöntem yerine standart sapma kullanıldığında daha yüksek bir dağılım yaratacaktır. Öklid mesafesi de gerçekten daha sık kullanılmaktadır. Temel sebep, standart sapmanın , veriler normal olarak dağıtıldığında iyi özelliklere sahiptir. Bu varsayım altında, kullanılması tavsiye edilir. Bununla birlikte, insanlar genellikle bu varsayımı, normalde dağıtılmayan veriler için yapar, bu da sorun yaratır. Verileriniz normal olarak dağılmıyorsa, hala standart sapmayı kullanabilirsiniz, ancak sonuçların yorumlanmasına dikkat etmelisiniz.

Son olarak, her iki dağılım ölçüsünün p = 1 ve p = 2 için Minkowski mesafesinin özel durumları olduğunu bilmelisiniz . Verilerinizin dağılımına ilişkin diğer önlemleri almak için p değerini artırabilirsiniz.


Bu konuda math.stackexchange'te bir gönderi de var: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience 5:14

6

Aynı görüşü ölçmeye çalışan benzer önlemlerdir. Genellikle st kullanırsınız. temel dağılımı hakkında bazı varsayımlar yaparsanız, güzel özelliklere sahip olduğundan sapma.

Öte yandan, ortalama sapmadaki mutlak değer bazı problemleri matematiksel bir perspektiften ortaya çıkarır çünkü onu ayırt edemezsiniz ve kolayca analiz edemezsiniz. Burada biraz tartışma .


1

Hayır hatalısın. Şaka yapıyorum. Bununla birlikte, bir kişinin resmi std yerine ortalama sapmayı hesaplamak istemesinin pek çok geçerli nedeni vardır ve bu şekilde mühendisim Brethren'in bakış açısı ile aynı fikirdeyim. Kuşkusuz, nitel sonuçları ve nicel sonuçları ifade eden mevcut bir çalışma yapısıyla karşılaştırmak için istatistikler hesaplıyorsam, std ile yapışmam gerekir. Ancak, örneğin, biraz koşmaya çalıştığımı varsayın hızlıikili, makine tarafından üretilen veri üzerinde anomali tespit algoritmaları. Son hedefim olarak akademik karşılaştırmalardan sonra değilim. Ancak, anlamı hakkında belirli bir veri akışının "yayılması" ile ilgili temel çıkarımla ilgileniyorum. Bunu yinelemeli ve olabildiğince verimli bir şekilde yapmakla da ilgileniyorum. Dijital elektronik donanımda, her zaman kirli numaralar oynarız - çarpımları ve bölümleri sırasıyla sol ve sağ vardiyalara damıtırız ve "hesaplama" mutlak değerleri için, sadece işaret bitini düşeriz (ve gerektiğinde birinin veya ikisinin tamamlayıcısını hesaplarız) , her ikisi de kolay dönüşümler). Bu yüzden, benim seçimim, istediğim zaman pencereleri üzerinde hızlı anomali tespiti için hesaplamalarıma mümkün olan en zorlu sürükleme yöntemiyle hesaplamak ve hesaplamalarıma doğrusal eşikler uygulamak.


1
Standart sapma, herhangi bir anda olduğu gibi (ortalama mutlak sapma dahil) olduğu gibi, verimli ve basit bir şekilde çevrimiçi bir algoritma ile hesaplanabilir. Bu nedenle, hızlı veya basit hesaplama gereksinimi bunu dışlamaz (ya da herhangi bir an temelli dağılım tahmincisini dışlamaz).
whuber

0

İki önlem gerçekten de farklı. Birincisi genellikle Ortalama Mutlak Sapma (MAD), ikincisi ise Standart Sapma (STD) olarak adlandırılır. Ciddi derecede sınırlı bilgi işlem gücü ve sınırlı program belleği olan gömülü uygulamalarda, karekök hesaplamalarından kaçınılması çok arzu edilebilir.

Hızlı bir kaba testten, bir dizi gauss dağınık rastgele numune için MAD = f * STD, f ile 0.78 ile 0.80 arasında bir yerde görünüyor.


0

Amar Sagoo'nun bunu açıklayan çok iyi bir makalesi var: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Sezgisel bir anlayışa kendi girişimi eklemek için:

Ortalama sapma, varsayımsal "ortalama" bir noktanın ortalamadan ne kadar uzakta olduğunu sormanın iyi bir yoludur, ancak tüm noktaların birbirinden ne kadar uzak olduğunu veya verilerin nasıl "dağıtıldığını" sormak için gerçekten işe yaramaz.

Standart sapma, tüm noktaların ne kadar uzakta olduğunu sormaktır, bu nedenle, sadece ortalama sapmadan daha yararlı bilgiler içerir (bu yüzden ortalama sapma genellikle sadece standart sapmayı anlamak için bir basamak taşı olarak kullanılır).

İyi bir benzetme Pisagor Teoremidir. Pisagor Teoremi bize yatay boyut ve dikey mesafeyi alarak kareleri, kareleri ekleyerek ve toplamın karekökünü alarak iki boyuttaki noktalar arasındaki mesafeyi söyler.

Eğer yakından bakarsanız, (popülasyon) Standart Sapma formülü temelde Pisagor Teoremi ile aynıdır, ancak ikiden fazla boyutta (ve her noktadan ortalamaya kadar her boyuttaki mesafeyi kullanarak). Bu nedenle, veri kümenizdeki tüm noktalar arasındaki "mesafenin" en doğru resmini verir.

Bu analojiyi biraz daha ileri itmek için, ortalama mutlak sapma, toplam mesafeden daha kısa olan yatay ve dikey mesafelerin ortalamasını almak gibi olurken, toplam mutlak sapma daha uzun olan yatay ve dikey mesafeleri eklerken olacaktır. gerçek mesafeden daha.


Demek istediğim, ortalama sapma derken, OP'nin bahsettiği şeydir, kesinlikle kesinlikle sapma demek istiyorsunuz. Terminoloji önemlidir çünkü ortalama sapma her zaman 0'dır. Ortalama mutlak sapma ve standart sapma arasındaki fark açısından her ikisi de TÜM puanların ortalamadan sapmasını içerir. Biri, ortalamadan mutlak sapmaların toplamını içerirken, kare sapmanın toplamı ise karekök olur ..
Michael R. Chernick 21

0

Standart sapma, rastgele işlemlerden dolayı dispersiyonu temsil eder. Spesifik olarak, birçok bağımsız işlemin toplamı nedeniyle olması beklenen birçok fiziksel ölçüm normal (çan eğrisi) dağılımına sahiptir.

Normal olasılık dağılımı şöyle verilir: Y=1σ2πe-(x-μ)22σ2

Nerede Y değer alma olasılığı x ortalama verilen μ ve σ…Standart sapma!

Başka bir deyişle, standart sapma birlikte toplanan bağımsız rastgele değişkenlerden ortaya çıkan bir terimdir. Bu yüzden, burada verilen cevapların bazılarına katılmıyorum - standart sapma sadece "daha sonraki hesaplamalar için daha uygun hale gelen sapma" anlamına gelmez. Standart sapma normal dağılmış olaylar için dağılmayı modellemenin doğru yoludur .

Denklemlere bakarsanız, standart sapmaların ortalamadan daha büyük sapmalara daha fazla ağırlık verdiğini görebilirsiniz. Sezgisel olarak, ortalama sapmanın ortalamanın gerçek sapmasını ölçtüğünü düşünebilirsiniz , oysa standart sapma ortalamanın etrafında zil şeklinde bir "normal" dağılım anlamına gelir. Verileriniz normalde dağılmışsa, standart sapma size daha fazla değer örneklediğinizde, bunların yaklaşık% 68'inin ortalamanın etrafında bir standart sapma içinde bulunacağını söyler.

Öte yandan, rastgele tek bir değişkeniniz varsa, dağılım, bir aralık içinde herhangi bir yerde görünen değerlerin eşit olasılığına sahip bir dikdörtgene benzeyebilir. Bu durumda, ortalama sapma daha uygun olabilir.

TL; DR, altta yatan pek çok rasgele işlemden kaynaklanan veya normal şekilde dağıldığını bildiğiniz verilere sahipseniz, standart sapma işlevini kullanın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.