Standart sapmadaki mutlak değeri almak yerine farkı neden kare?


408

Standart sapma tanımında neden ortalamayı (E) elde etmek ve sonunda karekökü geri almak için ortalamadan farkı kare almak zorundayız ? Aradaki farkın mutlak değerini sadece basitçe alıp , beklenen değerden (ortalama) elde edemez miyiz ve bu, verilerin değişimini de göstermez mi? Sayı, kare yönteminden farklı olacaktır (mutlak değer yöntemi daha küçük olacaktır), ancak yine de verilerin yayılmasını göstermelidir. Bu kare yaklaşımı neden standart olarak aldığımızı bilen var mı?

Standart sapmanın tanımı:

σ=E[(Xμ)2].

Bunun yerine mutlak değeri alabilir miyiz ve hala iyi bir ölçüm olamaz mı?

σ=E[|Xμ|]


25
Bir şekilde, önerdiğiniz ölçüm, hata (model kalitesi) analizi durumunda yaygın olarak kullanılır - daha sonra MAE, "ortalama mutlak hata" olarak adlandırılır.

8
Bir cevabı kabul ederken, cevabın dairesel olup olmadığına dikkat etmemiz benim için önemli görünüyor. Normal dağılım, kare hata terimlerinden kaynaklanan bu sapma ölçümlerine dayanmaktadır, ancak bu, kendi başına (XM) ^ 2'yi | XM |
russellpierce

2
Standart teriminin bugünün standardı olduğunu mu düşünüyorsunuz? Asıl bileşenin neden "asıl" olduğunu ve ikincil olmadığını sormak gibi değil mi?
robin girard

51
Şimdiye kadar verilen her cevap daireseldir. Matematiksel hesaplamaların kolaylığına (bunlar güzel ama hiçbir şekilde temel değil) ya da Gauss (Normal) dağılımının ve OLS'nin özelliklerine odaklanırlar. 1800'lerde Gauss en küçük kareler ve varyanslarla başladı ve Normal dağılımdan türetilenlerden - dairesellik var. Henüz herhangi bir cevapta çağrılmayan gerçek temel sebep , Merkezi Limit Teoreminde varyansın oynadığı benzersiz roldür . Bir diğeri, ikinci dereceden kaybın en aza indirilmesi karar teorisindeki önemdir.
whuber

2
Taleb , Edge.org'da standart sapmaların kaldırılması ve ortalama mutlak sapmaların kullanılması durumundadır.
Alex Holcombe

Yanıtlar:


188

Standart sapmanın amacı, simetrik bir veri setinin (yani genel olarak her bir verinin ortalamadan ne kadar uzak olduğunu) yayılmasını özetlemekse, o zaman bu yayılmanın nasıl ölçüleceğini tanımlamaya yönelik iyi bir yönteme ihtiyacımız vardır.

Kare almanın yararları:

  • Kareler her zaman pozitif bir değer verir, böylece toplam sıfır olmaz.
  • Kare alma, daha büyük farklılıklara vurgu yapar - hem iyi hem de kötü olduğu ortaya çıkan bir özellik (aykırı değerlerin etkisini düşünün).

Bununla birlikte, karenin bir yayılma ölçüsü olarak bir sorunu vardır ve bu birimlerin hepsinin karesi olduğu anlamına gelir; oysa yayılmanın orijinal verilerle aynı birimlerde olmasını tercih edebiliriz (kare kare, kare dolar veya kare elma düşünün) . Bu yüzden karekök orjinal ünitelere geri dönmemize izin verir.

Sanırım, mutlak farkın, veri dağılımına eşit ağırlık verdiğini söyleyebilirsiniz, oysa ki kare alma aşırılıkları vurgulamaktadır. Teknik olarak, diğerlerinin de belirttiği gibi, kare alma cebirle çalışmayı çok kolaylaştırır ve mutlak yöntemin yapmadığı özellikler sunar (örneğin, varyans eksi karenin karesinin eksi karesinin beklenen değerine eşittir) dağılımın ortalaması)

Bununla birlikte , “yayılmayı” nasıl görmek istediğinizi tercih ediyorsanız (bazı kişilerin-değerleriiçin sihirli bir eşik olarak% 5'i nasıl göreceği gibi), mutlak farkı alamamanızın hiçbir nedeni olmadığını not etmek önemlidir. aslında duruma bağlı olduğunda). Aslında, yayılmayı ölçmek için çeşitli rekabet yöntemleri vardır.p

Benim görüşümün kare değerleri kullanmak olduğu için, bunun Pisagor İstatistik Teoremi ile nasıl ilişkili olduğunu düşünmekten hoşlanıyorum: … bu aynı zamanda bağımsız rastgele değişkenlerle çalışırken hatırlamama yardımcı oluyor varyanslar ekle, standart sapmalar yok. Ancak bu sadece çoğunlukla bir hafıza yardımı olarak kullandığım kişisel öznel tercihimdir, bu paragrafı görmezden gelmekten çekinmeyin.c=a2+b2

Çok daha derinlemesine analiz okunabilir burada .


72
"Kareler her zaman pozitif bir değer verir, bu nedenle toplam sıfır olmaz." ve mutlak değerler de öyle.
robin girard

32
@ robin girard: Bu doğru, bu yüzden neden “karelemenin faydaları” ile birlikte bu noktadan önce geldim. Bu ifadede mutlak değerler hakkında hiçbir şey ima etmiyordum. Yine de amacını anlıyorum, başkaları net değilse, onu kaldırmayı / yeniden yazmayı düşüneceğim.
Tony Breyal

15
Sağlam istatistik alanlarının çoğu, varyansı bir veri yayılım ölçüsü olarak seçmenin (teknik olarak ölçeklendirme veya dağılım) bir sonucu olarak, aykırılıklara karşı aşırı hassasiyetle başa çıkma girişimidir. en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
Cevabında yer alan yazı bir tanrının göndermesidir.
traggatmot

1
Pisagor hakkında paragrafın yerinde olduğunu düşünüyorum. Hatayı boyutunda bir vektör olarak düşünebilirsiniz, örnek sayısıdır. Her boyuttaki boyut, o numunenin ortalamasından farklıdır. Bu vektörün (Pisagor) uzunluğu toplanan karelerin köküdür, yani standart sapma. nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

Kare farkı daha hoş matematiksel özelliklere sahiptir; sürekli farklılaştırılabilir (küçültmek istediğinizde hoş), Gauss dağılımı için yeterli bir istatistiktir ve yakınsama ve benzeri şeyleri kanıtlamak için kullanışlı olan L2 normudur.

Ortalama mutlak sapma (önerdiğiniz mutlak değer gösterimi) aynı zamanda bir dağılma ölçüsü olarak da kullanılır, ancak kare hatası kadar "iyi davranılmış" değildir.


2
“sürekli farklılaştırılabilir (küçültmek istediğinizde güzel)”, mutlak değerin optimize edilmesinin zor olduğunu mu kastediyorsunuz?
robin girard

29
@ robin: mutlak değer fonksiyonu her yerde sürekli iken, ilk türevi değildir (x = 0'da). Bu, analitik optimizasyonu daha zor hale getirir.
Vince,

12
Evet, ancak sadece tanımlayıcı yerine istediğiniz gerçek sayıyı bulmak kare hata kaybında daha kolaydır. 1 boyut vakasını düşünün; kare hata minimizerini ortalama ile ifade edebilirsiniz: O (n) işlemleri ve kapalı form. Mutlak hata minimizerinin değerini medyan tarafından ifade edebilirsiniz, ancak medyan değerinin ne olduğunu söyleyen kapalı formlu bir çözüm yoktur; O (n log n) gibi bir şey bulmak için bir sıralama gerektirir. En küçük kareler çözümleri basit bir tak-çalıştır tipi işlem olma eğilimindedir, mutlak değer çözümleri genellikle bulmak için daha fazla çalışma gerektirir.
Zengin

5
@Rich: Hem varyans hem de medyan lineer zamanda bulunabilir ve tabii ki daha hızlı değildir. Medyan sıralama gerektirmez.
Neil G


84

Bunu düşünebilmenin bir yolu standart sapmanın "ortalamadan uzaklığa" benzemesidir.

Bunu, öklid uzamındaki mesafelerle karşılaştırın - bu size gerçek mesafeyi verir, burada önerdiğiniz şeyin (btw, mutlak sapma olduğu ) bir manhattan mesafe hesaplaması gibi.


17
Öklid uzayının güzel benzetmesi!
c4il

2
Bunun dışında bir boyutta ve normu aynıdır, değil mi? l 2l1l2
naught101

5
@ naught101: Bu bir boyut değil, örnek sayısı olduğu boyutudur . Standart sapma ve mutlak sapma (ölçekli) vardır ve , iki nokta arasında, sırasıyla mesafeleri ve olduğu anlamına gelmek. , n l 2 L 1 ( X 1 , x 2 , ... , x , n ) ( μ , μ , ... , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
Bu, ortalamadan minimum uzaklık olarak değiştirilmelidir. Temelde Pisagor denklemi.
John

56

Nedeni, biz standart sapma yerine mutlak hata hesaplamaktayız olmasıdır normal dağıtılacak hata varsayarak . Modelin bir parçası.

Bir cetvelle çok küçük uzunlukları ölçtüğünüzü varsayalım, sonra standart sapma hata için hatalı bir ölçümdür çünkü negatif bir uzunluğu yanlışlıkla ölçmeyeceksiniz. Daha iyi bir ölçüm, bir Gamma dağılımının ölçümlerinize uymasına yardımcı olacak bir ölçü olabilir:

log(E(x))E(log(x))

Standart sapma gibi, bu da olumsuz değildir ve farklılaştırılabilir, ancak bu sorun için daha iyi bir hata istatistiğidir.


3
Cevabını beğendim. Sd her zaman en iyi istatistik değildir.
RockScience

2
Standart sapmanın dalgalanma boyutlarını düşünmenin en iyi yolu olmadığı durumlara karşı mükemmel bir örnek.
Hbar

Olumlu bir önlem elde etmek için miktarın üzerinde zıt bir işaret bulunmamalı mı - içbükey yerine dışbükey kullanarak ? log Xlogxlogx
AS

@AS Hayır, zaten her zaman olumlu. Tüm örnekleri eşit olduğunda sıfırdır , aksi halde büyüklüğü değişimleri ölçer. x
Neil G,

Yaniliyosun. İçbükey için . gE(g(X))g(E(X))g
AS

25

Beni en iyi tatmin eden cevap, doğal olarak bir numunenin genelleştirilmesinden n boyutlu öklid uzayına düşmesi. Yapılması gereken bir şey olup olmadığı kesinlikle tartışmalıdır, ancak her durumda:

Senin varsayın ölçümleri her bir eksen vardır . Ardından verileriniz o alanda bir nokta tanımlar . Şimdi, verilerin hepsinin birbirine çok benzer olduğunu farkedebilirsiniz, bu nedenle onları, tarafından tanımlanan satırda yatması gereken tek bir konum parametresi ile temsil edebilirsiniz . Veri noktanızı bu satıra yansıtmak değerini alır ve yansıtılan nokta ile gerçek veri noktasına olan uzaklık.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Bu yaklaşım aynı zamanda korelasyon için geometrik bir yorum alır, .ρ^=cos(x~,y~)


7
Bu doğru ve çekici. Ancak, sonuçta soruyu aslında cevaplamadan sadece yeniden ifade ediyor görünmektedir: yani, neden Öklid (L2) mesafesini kullanmalıyız?
whuber

20
@sesqu Standart sapmalar, 1809'daki Gauss'un adsız sapmasını, başlangıç ​​noktası olarak mutlak hata yerine kare hata kullanarak elde edene kadar olağan hale gelmedi. Bununla birlikte, onları en üste iten (inanıyorum) Galton'ın regresyon teorisi (hangi ipucunu kullandığın) ve ANOVA'nın, sadece Piston Teoremi'nin yeniden ifade edilmesini sağlayan, toplam kareler toplamını parçalama kabiliyetidir. L2 normu. Böylece SD, Fisher'ın 1925 “Araştırma Çalışanları İçin İstatistiksel Yöntemler” de savunulan yayılmanın doğal bir omnibus ölçüsü haline geldi ve işte 85 yıl sonra biz buradayız.
whuber

13
(+1) @ whuber'ın damarı içinde devam ederken, Öğrenci'nin 1908'de "Ortalamanın Muhtemel Yanılgısı - Hey, Çocuklar, Paydadaki MAE'yi Kontrol Edin!" Başlıklı bir makale yayınladığını iddia ediyorum. o zaman istatistikler şimdiye kadar tamamen farklı bir yüze sahip olacaktı. Tabii ki, böyle bir makale yayınlamamıştı ve elbette sahip olamıyordu, çünkü MAE S ^ 2'nin sahip olduğu tüm güzel özelliklere sahip değil. Bunlardan biri (Öğrenci ile ilgili), elbette bizi L2'ye ve iç ürüne geri götüren ortogonalliğin bir ifadesi olan ortalamanın (normal durumda) bağımsızlığıdır.

3
Bu cevap, düşündürücüdü ve benim görüşme biçimimi tercih ettiğimi düşünüyorum. 1-D'de farkın neden karenin daha iyi göründüğünü anlamak zor. Fakat çoklu boyutlarda (hatta sadece 2) bir kişi, Öklid mesafesinin (kare) Manhattan mesafesine (farkların mutlak değerlerinin toplamı) tercih edildiğini kolayca görebilir.
thecity2

1
@whuber "Xᵢ = μ ile tanımlanan çizginin" ne anlama geldiğini açıklayabilir misiniz? Başlangıç ​​noktasından ve noktadan geçen çizgi mi (μ, μ, ..., μ)? Ayrıca, bunun hakkında daha fazla bilgiyi nerede bulabilirim?
Arch Stanton

18

Farkı ortalamanın karelemesinin birkaç nedeni vardır.

  • Varyans sapmanın 2. momenti (buradaki RV ) olarak tanımlanır ve bu nedenle momentler karesi sadece rastgele değişkenin daha yüksek güçlerinin beklentileridir.(xμ)

  • Mutlak değer fonksiyonunun aksine bir kareye sahip olmak, güzel bir sürekli ve farklılaştırılabilir fonksiyon verir (mutlak değer 0'da ayırt edilemez) - bu onu özellikle tahmin ve regresyon analizi bağlamında doğal bir seçim haline getirir.

  • Kare formülasyonu ayrıca doğal olarak Normal Dağılım parametrelerinin dışında kalmaktadır.


17

Diğer bir neden (yukarıdaki mükemmel olanlara ek olarak) standart sapmanın mutlak sapmadan daha "verimli" olduğunu gösteren Fisher'ın kendisinden gelir. Burada, verimli bir istatistiğin bir popülasyondan farklı örneklemelerde değer açısından ne kadar değişkenlik göstereceği ile ilgilidir. Nüfusunuz normal olarak dağılmışsa, bu popülasyondan çeşitli örneklerin standart sapması ortalama olarak size birbirine oldukça benzer değerler verir, oysa mutlak sapma size biraz daha fazla yayılan sayılar verir. Şimdi, belli ki bu ideal koşullarda, ancak bu sebep birçok insanı (matematiğin temiz olması ile birlikte) ikna etti, bu yüzden çoğu insan standart sapmalarla çalıştı.


6
Argümanınız normal olarak dağıtılan verilere bağlıdır. Nüfusun "çifte üstel" dağılıma sahip olduğunu varsayarsak, o zaman mutlak sapma daha verimlidir (aslında ölçek için yeterli bir istatistiktir)
probabilityislogic

7
Evet, dediğim gibi, "nüfusunuz normal dağılmışsa."
Eric Suh

Normal dağılımın yanı sıra Fisher kanıtı hatasız ölçümler yaptığını varsayar. % 1 gibi küçük hatalarda durum tersine
çevrilir

14

İnsanların bilmesi için aynı konuda bir Matematik Taşması sorusu var.

Neden-is-it-so-cool-to-kare-sayılarla-in-terimleri-of-bulma-standart-sapma

Paket alma mesajı, varyansın karekökünün kullanılmasının matematiğin daha kolay olmasına yol açtığını gösterir. Benzer bir cevap yukarıda Rich ve Reed tarafından verilmiştir.


3
Formüllerimizin ve değerlerimizin belirli bir veri kümesini daha doğru yansıtmasını istediğimizde 'daha kolay matematik' şart değildir. Bilgisayarlar zaten tüm bu zor işleri yapıyor.
Dan W

Pi'yi 3,14 olarak tanımlamak matematiği kolaylaştırır, ancak bu doğru yapmaz.
James

13

Varyanslar : bağımsız rasgele değişkenler için , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Bunun ne mümkün olduğuna dikkat edin: Diyelim ki 900 kez adil bir para atayım. Elime geçen kafa sayısının 440 ile 455 arasında olması ihtimali nedir? Sadece kafaları beklenen sayısını (bulmak ) ve başlığı (sayısı varyans ), daha sonra beklentisi ile normal (veya Gauss) dağılımına sahip olasılığını bulmak ve standart sapma arasındadır ve . Abraham de Moivre bunu 18. yüzyılda bozuk para fırlattı ve ilk önce çan şeklindeki eğrinin bir değere mal olduğunu gösterdi.450225=15245015439.5455.5


Ortalama mutlak sapmalar, sapmalarla aynı şekilde katkı yapmıyor mu?
russellpierce

6
Hayır değiller.
Michael Hardy,

10

Mutlak sapmaların ve kare sapmaların kullanılması arasındaki karşıtlığın, tek bir değişkenin ötesine geçip doğrusal regresyon hakkında düşündüğünüzde netleştiğini düşünüyorum. Http://en.wikipedia.org/wiki/Least_absolute_deviations adresinde güzel bir tartışma var , özellikle http: // www. .math.wpi.edu / Course_Malerials / SAS / lablets / 7.3 / 73_choices.html .

Özetlemek gerekirse, en az mutlak sapmalar, sıradan en küçük karelere göre aykırı değerlere göre daha sağlamdır, ancak dengesiz olabilir (tek bir veri noktasında küçük bir değişiklik, takılan çizgide büyük bir değişiklik sağlayabilir) ve her zaman benzersiz bir çözüme sahip değildir - olabilir bir dizi takılı hat. Ayrıca en küçük mutlak sapmalar yinelemeli yöntemler gerektirirken, sıradan en küçük kareler basit bir kapalı form çözümüne sahip olsalar da, elbette bu Gauss ve Legendre günlerinde olduğu kadar büyük bir şey değil.


"benzersiz çözüm" argümanı oldukça zayıf, bu gerçekten de veriler tarafından desteklenen birden fazla değer olduğu anlamına gelir. Ek olarak, L2 gibi katsayıların cezalandırılması, benzersizlik problemini ve kararlılık problemini de bir dereceye kadar çözecektir.
probabilityislogic 11

10

Bir çok neden var; Muhtemelen ana, normal dağılımın parametresi olarak iyi çalışmasıdır.


4
Katılıyorum. Normal sapma varsa, standart sapma dağılmayı ölçmenin doğru yoludur. Ve birçok dağıtım ve gerçek veriler yaklaşık olarak normaldir.
asukasz Lew

2
"Doğal parametre" demelisiniz, normal dağılımın doğal parametreleri ortalama ve ortalama zaman kesinliğidir. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG İyi nokta; Burada "sıradan" anlamını düşünüyordum. Daha iyi bir kelime düşüneceğim.

8

Birçok yönden, dağılmayı özetlemek için standart sapmanın kullanılması bir sonuca varmaktadır. SD'nin, ortalamanın üzerindeki mesafeden itibaren ortalamanın altındaki eşit muamele nedeniyle dolaylı olarak simetrik bir dağılım üstlendiğini söyleyebilirsiniz. SD, istatistikçi olmayan kişilere yorum yapmak şaşırtıcı derecede zor. Bir kişi Gini'nin ortalama farkının daha geniş bir uygulamaya sahip olduğunu ve önemli ölçüde daha fazla yorumlanabileceğini iddia edebilir. Birinin, SD kullanımının ortalama olarak yaptığı gibi, kendi seçimlerini bir merkezi eğilim ölçüsü olarak ilan etmesini gerektirmez. Gini'nin ortalama farkı, herhangi iki farklı gözlem arasındaki ortalama mutlak farktır. Sağlam ve yorumlanması kolay olmasının yanı sıra, eğer dağılım aslında Gauss ise, SD kadar 0,98 olur.


2
Sadece Frank'in Gini'ye önerisini eklemek için, burada güzel bir makale var: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Çeşitli dağılım ölçütlerini gözden geçiriyor ve ayrıca bilgilendirici bir tarihsel bakış açısı sunuyor.
Thomas Speidel

1
Bu fikirleri de severim, ancak konum parametreleri olarak ifade edemeyen, varyansın (ve dolayısıyla SD'nin) daha az bilinen bir paralel tanımı var. Varyans, değerler arasındaki tüm ikili farklar üzerindeki ortalama karenin yarısıdır, tıpkı Gini ortalaması farkının tüm ikili farkın mutlak değerlerine dayanması gibi.
Nick Cox

7

Bir dağılımın standart sapmasını tahmin etmek bir mesafe seçmeyi gerektirir.
Aşağıdaki mesafelerden herhangi biri kullanılabilir:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Genellikle günlük yaşamda herkesin kullandığı doğal öklid mesafesini ( ) kullanırız. Önerdiğiniz mesafe . Her ikisi de iyi adaylar ama farklılar.n=2n=1

Biri kullanmaya da karar verebilir .n=3

Cevabımı beğeneceğinizden emin değilim, benim açımdan başkalarına aykırı daha iyi olduğunu göstermemek . Bir dağılımın standart sapmasını tahmin etmek istiyorsanız, kesinlikle farklı bir mesafe kullanabileceğinizi düşünüyorum.n=2


6

“Verinin yayılması” derken ne hakkında konuştuğunuza bağlı. Bana göre bu iki şey anlamına gelebilir:

  1. Örnekleme dağılımının genişliği
  2. Verilen bir tahminin doğruluğu

Madde 1) için, normal bir örnekleme dağılımına sahip olduğunuz durumlar hariç, standart sapmayı yayılma ölçüsü olarak kullanmak için özel bir neden yoktur. Ölçü bir durumunda, daha uygun bir ölçüsüdür Laplace Örnekleme dağılımı . Tahminime göre, standart sapma burada 2) noktadan taşınan sezgilerden dolayı kullanılıyor. Muhtemelen ayrıca, standart sapmanın uygun ölçü olduğu genel olarak en küçük kareler modellemesinin başarısından da kaynaklanmaktadır. Muhtemelen ayrıca, nin hesaplanması çoğu zaman dağılımlar için hesaplamasından genellikle daha kolaydır .E(|Xμ|)E(X2)E(|X|)

Şimdi, madde 2) için, varyans / standart sapmayı yayılma ölçüsü olarak kullanmak için çok iyi bir neden var. Laplace yaklaşımında bir posteriorla görebilirsiniz. Veri ve ön bilgiler , parametresinin posteriorunu aşağıdaki gibi yazın:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

Ben kullandım paydası bağlı değildir belirten bir kukla değişken olarak . Eğer posterior tek bir yuvarlanmış maksimuma sahipse (yani bir "sınıra" çok yakın değilse), log . Taylor genişlemesinin ilk iki terimini alırsak (fark için asal kullanarak):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Fakat burada biz çünkü "iyi yuvarlanmış" bir maksimum, , yani biz:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Bu yaklaşımı takarsak, şunu elde ederiz:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Bu, ancak gösterim için normal bir dağılımdır, ortalama ve değişkenlik eşitE(θDI)θmax

V(θDI)[h(θmax)]1

( her zaman pozitiftir, çünkü çok iyi bir ). Bu, "normal problemlerde" (çoğu) olduğu, varyansın için tahminlerin doğruluğunu belirleyen temel miktar olduğu anlamına gelir . Dolayısıyla, büyük miktarda veriye dayanan tahminler için, standart sapma teorik olarak çok anlam ifade eder - temel olarak bilmeniz gereken her şeyi size söyler. Temelde aynı argüman (aynı koşullarla gerekli) olan çok boyutlu durumda da bir Hessian matrisidir. Köşegen girişler de burada temel olarak değişkenlik gösteriyor.h(θmax)θh(θ)jk=h(θ)θjθk

Maksimum olasılık yöntemini kullanan sık görüşmeci, esasen aynı sonuca varacaktır, çünkü MLE, verilerin ağırlıklı bir birleşimi olma eğilimindedir ve büyük örnekler için, Merkezi Limit Teoremi uygulanır ve temelde ancak ve değişimli: (hangi paradigmayı tercih ettiğimi tahmin edip edemediğinizi görün: P). Her iki durumda da, parametre tahmininde standart sapma, yaymanın önemli bir teorik ölçüsüdür.p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"Neden farkı" mutlak değer almak "yerine" kareye ayırmalı "? Tam olarak cevaplamak için, kabul edilme nedenlerini gösteren literatür ve bu nedenlerin çoğunun neden böyle olmadığına dair bir durum vardır. “Mutlak değeri basitçe alabilir miyiz…?”. Cevabın evet olduğu literatürün farkındayım, yapılmasının avantajlı olduğu iddia ediliyor.

Yazar Gorard, ilk önce karelerin kullanılması, hesaplama basitliği nedeniyle daha önce benimsendiğini ancak bu orijinal nedenlerin artık geçerli olmadığını belirtti. Gorard, ikinci olarak, OLS'nin benimsendiğini, çünkü Fisher'ın OLS kullanılan analiz örneklerinin sonuçlarının mutlak farklar kullananlardan (kabaca belirtildiği gibi) daha küçük sapmalara sahip olduğunu tespit ettiğini belirtti. Böylece, OLS'nin bazı ideal durumlarda faydaları olabileceği görülüyor; Bununla birlikte, Gorard, bazı gerçekler üzerinde (ve Fisher'ın kabul ettiğini iddia ediyor), gerçek dünya koşulları altında (gözlemlerin eksik ölçümü, düzgün olmayan dağılımlar, bir numuneden çıkarım yapılmayan bir nüfusun çalışmalarının) kareler kullanmaktan daha kötü olduğuna dikkat çekiyor. mutlak farklar.

Gorard'ın sorunuza cevabı "Bunun yerine farkın mutlak değerini alıp beklenen değeri (ortalamaları) alabilir miyiz?" Evet. Bir diğer avantaj, farklılıkları kullanmanın, bu fikirleri yaşamda deneyimlediğimiz yöntemlerle ilgili önlemler (hata ve varyasyon ölçüleri) üretmesidir. Gorard, restoranı eşit şekilde bölen insanları hayal ettiğini ve bazılarının bu yöntemin haksız olduğunu sezgisel olarak görebileceğini hayal ettiğini söylüyor. Oradaki hiç kimse hataları çözemez; farklar meseledir.

Son olarak, mutlak farklar kullanarak, her bir gözlemi eşit olarak ele alır, oysa ki farklılıkların karelenmesiyle, farklılıklar kareye alındığında, tahminlerin iyi tahmin edilen gözlemlerden çok daha ağır olduğunu tahmin eder, bu da bazı gözlemlerin çalışmaya birkaç kez dahil edilmesine izin vermek gibidir. Özet olarak, genel itiş gücü, günümüzde kareleri kullanmak için birçok kazanma nedeni bulunmadığı ve bunun aksine mutlak farkları kullanmanın avantajları olduğu yönündedir.

Referanslar:


1
Thanks @Jen, bu bana QWERTY klavye tarihini hatırlatıyor. Hey, QWERTY yazmanız neden bu kadar uzun sürüyor?
toto_tico

5

Çünkü kareler diğer birçok matematiksel işlemin kullanımına izin verebilir veya mutlak değerlerden daha kolay işlevler yapabilir.

Örnek: kareler entegre edilebilir, farklılaştırılabilir, trigonometrik, logaritmik ve diğer fonksiyonlarda kolaylıkla kullanılabilir.


2
Merak ediyorum, burada kendini tatmin eden bir profesör var mı? Biz olsun
probabilityislogic

5

Rastgele değişkenler eklerken, varyasyonları tüm dağılımlar için ekler. Varyans (ve dolayısıyla standart sapma) hemen hemen tüm dağılımlar için yararlı bir önlemdir ve hiçbir şekilde gaussian (aka "normal") dağılımlarla sınırlı değildir. Bu bizim hata ölçütümüz olarak kullanmaya değer. Benzersiz olmama, mutlak farklılıklarla ciddi bir problemdir, çünkü çoğu zaman sonsuz sayıda eşit ölçü "uyması" vardır ve yine de "ortadaki bir" en gerçekçi olarak tercih edilir. Ayrıca, bugünün bilgisayarlarında bile, hesaplama verimliliği önemlidir. Büyük veri kümeleriyle çalışıyorum ve CPU zamanı önemli. Bununla birlikte, önceki bazı cevapların işaret ettiği gibi, artıkların tek bir mutlak “en iyi” ölçüsü yoktur. Farklı durumlar bazen farklı önlemleri gerektirir.


2
Varyansların asimetrik dağılımlar için çok faydalı olduğuna ikna olmadım.
Frank Harrell

Biri yukarı doğru, biri aşağı doğru bir çift "yarı-varyans"?
kjetil b halvorsen

3

Doğal olarak bir dağılımın dağılımını anlamlı şekilde (mutlak sapma, nicelikler vb.) Tanımlayabilirsiniz.

Güzel bir gerçek, varyansın ikinci merkezi an olduğu ve her dağılımın varsa, anları tarafından benzersiz bir şekilde tanımlandığıdır. Bir başka güzel gerçek, varyansın karşılaştırılabilir herhangi bir metrikten matematiksel olarak daha izlenebilir olmasıdır. Başka bir gerçek, varyansın normal parametre için normal dağılımın iki parametresinden biri olması ve normal dağılımın sadece bu iki parametre olan sıfır olmayan 2 merkezi ana sahip olmasıdır. Normal olmayan dağılımlar için bile normal bir çerçevede düşünmek faydalı olabilir.

Gördüğüm gibi, standart sapmanın böyle olmasının nedeni, uygulamalarda varyansın karekökünün düzenli olarak ortaya çıkmasıdır (örneğin rastgele bir değişkenin standartlaştırılması için), bunun için bir ad gereklidir.


1
Doğru hatırlıyorsam, anları tarafından benzersiz bir şekilde tanımlanmayan log-normal dağılım değil.
Olasılık

1
@probabilityislogic, aslında, bu doğrudur, "Karakteristik fonksiyon ve moment üreten fonksiyon" bölümündeki en.wikipedia.org/wiki/Log-normal_distribution adresine bakın .
kjetil b halvorsen

1

Farklı ve belki de daha sezgisel bir yaklaşım, doğrusal gerileme karşı medyan gerilimi düşündüğünüz zamandır.

Farz edelim ki modelimiz . Daha sonra b 'nin beklenen kare kalıntısını minimize ederek, .E(y|x)=xββ=argminbE(yxb)2

Bunun yerine modelimiz Median , o zaman mutlak kalıntıları en aza indirerek parametre tahminlerimizi buluruz ,.(y|x)=xββ=argminbE|yxb|

Başka bir deyişle, mutlak mı kare kare mi kullanılacağı, beklenen değeri mi yoksa medyan değeri mi seçmek istediğinize bağlıdır.

Örneğin, dağılım eğri heteroseksensellik gösterirse, o zaman beklenen değerinin eğiminin eğimin medyan değeri için nasıl değiştiği konusunda büyük bir fark vardır .yxy

Koenker ve Hallock, medyan regresyonun özel bir durum olduğu kuantil regresyonda güzel bir parçaya sahip: http://master272.com/finance/QR/QRJEP.pdf .


0

Benim tahminim şudur: Çoğu nüfus (dağılım) ortalamanın etrafında toplanma eğilimindedir. Ne kadar uzak bir değer, ortalamadan o kadar nadir olur. Bir değerin ne kadar "satır dışı" olduğunu yeterince ifade etmek için, hem ortalamadan uzaklığını hem de (normal olarak konuşan) oluşun nadirliğini dikkate almak gerekir. Farkı ortalamanın karesinden almak, daha küçük sapmalara sahip değerlerle karşılaştırıldığında bunu yapar. Tüm varyansların ortalaması alındıktan sonra, birimleri orijinal boyutlarına geri döndüren karekökü almak uygundur.


2
Bu, neden sadece farkın mutlak değerini alamadığınızı açıklamıyor . Bu, çoğu öğrenciye 101 öğrencinin kavramsal olarak daha basit göründüğünü ve “hem ortalamaya olan mesafesini hem de (normal olarak konuşan) olayın nadirliğini hesaba katardı”.
gung

Bence farkın mutlak değeri, sadece ortalamadan farkı ifade edeceğini ve büyük farklılıkların normal dağılıma iki kat zarar verici olduğu gerçeğini hesaba katmayacağını düşünüyorum.
Samuel Berry

2
Neden "iki kat yıkıcı" önemlidir ve "üç kat yıkıcı" ya da "dört kat yıkıcı" demezler? Görünüşe göre bu cevap sadece orijinal soruyu eşdeğer bir soru ile değiştiriyor.
whuber

0

Kareler daha büyük sapmaları yükseltir.

Örneğinizin grafiğin her yerinde değerleri varsa, ilk standart sapma içindeki% 68.2'yi getirmek için standart sapma biraz daha geniş olmalıdır. Verileriniz tüm ortalamanın etrafında düşme eğilimindeyse, σ daha sıkı olabilir.

Bazıları hesaplamaları basitleştirdiğini söylüyor. Karenin pozitif karekökünü kullanmak, bu argümanın yüzmemesini sağlardı.

|x|=x2

Eğer cebirsel basitlik amaç olsaydı, o zaman şöyle olurdu:

σ=E[(xμ)2] ki bu, aynı sonuçları verir. .E[|xμ|]

Belli ki bunun karesi, dış kaynaklı hataları (doh!) Yükseltme etkisine de sahiptir.


Az önce işlemiş olduğum bir bayraktan yola çıkarak, düşüren kişinin bu cevabın soruya nasıl cevap verdiğini tam olarak anlamadığından şüpheleniyorum. Bağlantıyı gördüğüme inanıyorum (ancak yine de diğer okuyucuların puanlarınızı daha iyi anlamalarına yardımcı olmak için bazı düzenlemeler yapmayı düşünebilirsiniz). % 68.2 değeri standart sapma özelliklerinden elde edilen, bu nedenle nasıl diğer bazı yerine SD kullanarak haklı bu sayı yardımını niyaz vermez: İlk paragraf olsa da, biraz dairesel tartışmanın olarak beni çarptığı sapmaların norm bir dağılımın yayılımını ölçmenin bir yolu olarak mı? Lp
whuber

İlk paragraf, oyumun düşük olmasının sebebiydi.
Alexis,

3
@Preston Thayne: Standart sapma beklenen değeri olmadığından , sqrt((x-mu)^2)formülünüz yanıltıcıdır. Buna ek olarak, kare alma yükselterek daha büyük sapmaların etkisi vardır sırf bu aşkın varyansı tercih sebebi olduğu anlamına gelmez MAD . Bir şey olursa, o zamandan beri nötr bir mülktür , MAD gibi daha güçlü bir şey istiyoruz . Son olarak, aslında varyans daha matematiksel uysal daha MAD matematiksel o zaman bu yazı iletti ettik daha derin bir konudur.
Steve S,

0

Standart sapmadaki mutlak değeri almak yerine farkı neden kare?

X'in farkını ortalamanın karesinden çıkardık çünkü serbestlik derecelerinin karekökü ile orantılı Öklid mesafesi, (popülasyon ölçüsündeki x sayısı) en iyi dağılım ölçüsüdür.

Hesaplama mesafesi

0 ile 5 arasındaki mesafe nedir?

  • 50=5 ,
  • |05|=5 ve
  • 52=5

Tamam, bu önemsiz çünkü tek bir boyut.

0, 0 ve 3, 4 arasındaki noktaların mesafesi ne durumda?

Bir seferde sadece 1 boyutta gidebilirsek (şehir bloklarında olduğu gibi) o zaman sadece sayıları toplarız. (Bu bazen Manhattan mesafesi olarak bilinir).

Ama aynı anda iki boyutta ne olacak? Sonra (hepimiz lisede öğrendiğimiz Pisagor teoremi ile), her boyuttaki mesafeyi kareleriz, kareleri toplarız ve sonra orijinden noktaya kadar olan mesafeyi bulmak için karekökü alırız.

32+42=25=5

0, 0, 0'daki bir noktadan 1, 2, 2 arasındaki mesafeye ne dersiniz?

Bu sadece

12+22+22=9=3

çünkü ilk iki x'in mesafesi, toplam x'in son x ile hesaplanması için ayağı oluşturur.

x12+x222+x32=x12+x22+x32

Her boyutun mesafesinin karelenme kuralını genişletmeye devam edebiliriz; bu, hiper-boyutlu uzayda dikgen ölçümler için, Öklid mesafesi dediğimiz şeye genelleşir:

distance=i=1nxi2

ve böylece dikey karelerin toplamı kare uzaklıktır:

distance2=i=1nxi2

Bir ölçümü bir başkasına dik (veya dik açılarda) yapan nedir? Koşul, iki ölçüm arasında bir ilişki olmamasıdır. Bu ölçümlerin bağımsız ve ayrı ayrı dağıtılmış olmasını isteriz ( iid ).

Varyans

Şimdi popülasyon varyansı formülünü hatırlayın (bundan standart sapmayı alacağız):

σ2=i=1n(xiμ)2n

Ortalamayı çıkartarak verileri zaten 0'da ortaladıysak, şunları yaptık:

σ2=i=1n(xi)2n

Dolayısıyla, varyansın sadece serbestlik derecelerinin (değişkenlerin üzerinde değişkenlik gösterdiği boyutların sayısı) bölünmüş kareler arası mesafe olduğunu görüyoruz. Bu aynı zamanda ölçüm başına olan ortalama katkıdır . "Ortalama kare değişme" de uygun bir terimdir.distance2

Standart sapma

O zaman, varyansın sadece kare kökü olan standart sapma var:

σ=i=1n(xiμ)2n

Eşdeğerde, serbestlik derecelerinin karekökü ile bölünen uzaklık :

σ=i=1n(xi)2n

Ortalama mutlak sapma

Ortalama Mutlak Sapma (MAD), Manhattan mesafesini kullanan bir dağılım ölçüsüdür veya ortalamadan farkların mutlak değerlerinin toplamıdır.

MAD=i=1n|xiμ|n

Yine, verilerin merkezlendiğini varsayarsak (ortalama çıkarıldı) Manhattan mesafesinin ölçüm sayısına bölünmesiyle:

MAD=i=1n|xi|n

Tartışma

  • Ortalama mutlak sapma, normal dağılmış bir veri kümesi için standart sapmanın boyutunun yaklaşık 8 katıdır ( aslında2/π ).
  • Dağılımdan bağımsız olarak, ortalama mutlak sapma standart sapmaya eşit veya daha azdır. MAD, standart sapmaya göre aşırı değerler içeren bir veri setinin dağılımını belirtir.
  • Ortalama Mutlak Sapma, aykırı değerlere karşı daha dayanıklıdır (yani aykırı değerlerin, standart sapma üzerindeki istatistiklerinde büyük bir etkisi yoktur.
  • Geometrik olarak konuşursak, eğer ölçümler birbirine dik değilse (örneğin) - örneğin, pozitif olarak korelasyona girmeleri durumunda, ortalama mutlak sapma, öklid mesafesine dayanan standart sapmaya göre daha iyi bir tanımlayıcı istatistik olacaktır (bunun genellikle ince olmasına rağmen) ).

Bu tablo yukarıdaki bilgileri daha kısa ve öz bir şekilde yansıtmaktadır:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Yorumlar:

"Normal mutlak sapma, normal dağılmış bir veri kümesi için standart sapmanın boyutunun yaklaşık 0,8 katıdır" için bir referansınız var mı? Çalıştırdığım simülasyonlar bunun yanlış olduğunu gösteriyor.

Standart normal dağılımdan bir milyon örneğin 10 simülasyonu:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Sonuç

Bir dağılım ölçüsü hesaplarken kare farkları tercih ediyoruz, çünkü bize dağılımın daha iyi tanımlayıcı bir istatistiğini veren Öklid mesafesini kullanabiliriz. Daha göreceli olarak aşırı değerler varsa, Öklid mesafesi istatistikte bunu hesaba katarken, Manhattan mesafesi her ölçüme eşit ağırlık verir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.