Standart sapmadaki mutlak değeri almak yerine farkı neden kare?
X'in farkını ortalamanın karesinden çıkardık çünkü serbestlik derecelerinin karekökü ile orantılı Öklid mesafesi, (popülasyon ölçüsündeki x sayısı) en iyi dağılım ölçüsüdür.
Hesaplama mesafesi
0 ile 5 arasındaki mesafe nedir?
- 5−0=5 ,
- |0−5|=5 ve
- 52−−√=5
Tamam, bu önemsiz çünkü tek bir boyut.
0, 0 ve 3, 4 arasındaki noktaların mesafesi ne durumda?
Bir seferde sadece 1 boyutta gidebilirsek (şehir bloklarında olduğu gibi) o zaman sadece sayıları toplarız. (Bu bazen Manhattan mesafesi olarak bilinir).
Ama aynı anda iki boyutta ne olacak? Sonra (hepimiz lisede öğrendiğimiz Pisagor teoremi ile), her boyuttaki mesafeyi kareleriz, kareleri toplarız ve sonra orijinden noktaya kadar olan mesafeyi bulmak için karekökü alırız.
32+42−−−−−−√=25−−√=5
0, 0, 0'daki bir noktadan 1, 2, 2 arasındaki mesafeye ne dersiniz?
Bu sadece
12+22+22−−−−−−−−−−√=9–√=3
çünkü ilk iki x'in mesafesi, toplam x'in son x ile hesaplanması için ayağı oluşturur.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Her boyutun mesafesinin karelenme kuralını genişletmeye devam edebiliriz; bu, hiper-boyutlu uzayda dikgen ölçümler için, Öklid mesafesi dediğimiz şeye genelleşir:
distance=∑i=1nx2i−−−−−√
ve böylece dikey karelerin toplamı kare uzaklıktır:
distance2=∑i=1nx2i
Bir ölçümü bir başkasına dik (veya dik açılarda) yapan nedir? Koşul, iki ölçüm arasında bir ilişki olmamasıdır. Bu ölçümlerin bağımsız ve ayrı ayrı dağıtılmış olmasını isteriz ( iid ).
Varyans
Şimdi popülasyon varyansı formülünü hatırlayın (bundan standart sapmayı alacağız):
σ2=∑i=1n(xi−μ)2n
Ortalamayı çıkartarak verileri zaten 0'da ortaladıysak, şunları yaptık:
σ2=∑i=1n(xi)2n
Dolayısıyla, varyansın sadece serbestlik derecelerinin (değişkenlerin üzerinde değişkenlik gösterdiği boyutların sayısı) bölünmüş kareler arası mesafe olduğunu görüyoruz. Bu aynı zamanda ölçüm başına olan ortalama katkıdır . "Ortalama kare değişme" de uygun bir terimdir.distance2
Standart sapma
O zaman, varyansın sadece kare kökü olan standart sapma var:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Eşdeğerde, serbestlik derecelerinin karekökü ile bölünen uzaklık :
σ=∑i=1n(xi)2−−−−−−−√n−−√
Ortalama mutlak sapma
Ortalama Mutlak Sapma (MAD), Manhattan mesafesini kullanan bir dağılım ölçüsüdür veya ortalamadan farkların mutlak değerlerinin toplamıdır.
MAD=∑i=1n|xi−μ|n
Yine, verilerin merkezlendiğini varsayarsak (ortalama çıkarıldı) Manhattan mesafesinin ölçüm sayısına bölünmesiyle:
MAD=∑i=1n|xi|n
Tartışma
- Ortalama mutlak sapma, normal dağılmış bir veri kümesi için standart sapmanın boyutunun yaklaşık 8 katıdır ( aslında2/π−−−√ ).
- Dağılımdan bağımsız olarak, ortalama mutlak sapma standart sapmaya eşit veya daha azdır. MAD, standart sapmaya göre aşırı değerler içeren bir veri setinin dağılımını belirtir.
- Ortalama Mutlak Sapma, aykırı değerlere karşı daha dayanıklıdır (yani aykırı değerlerin, standart sapma üzerindeki istatistiklerinde büyük bir etkisi yoktur.
- Geometrik olarak konuşursak, eğer ölçümler birbirine dik değilse (örneğin) - örneğin, pozitif olarak korelasyona girmeleri durumunda, ortalama mutlak sapma, öklid mesafesine dayanan standart sapmaya göre daha iyi bir tanımlayıcı istatistik olacaktır (bunun genellikle ince olmasına rağmen) ).
Bu tablo yukarıdaki bilgileri daha kısa ve öz bir şekilde yansıtmaktadır:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Yorumlar:
"Normal mutlak sapma, normal dağılmış bir veri kümesi için standart sapmanın boyutunun yaklaşık 0,8 katıdır" için bir referansınız var mı? Çalıştırdığım simülasyonlar bunun yanlış olduğunu gösteriyor.
Standart normal dağılımdan bir milyon örneğin 10 simülasyonu:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Sonuç
Bir dağılım ölçüsü hesaplarken kare farkları tercih ediyoruz, çünkü bize dağılımın daha iyi tanımlayıcı bir istatistiğini veren Öklid mesafesini kullanabiliriz. Daha göreceli olarak aşırı değerler varsa, Öklid mesafesi istatistikte bunu hesaba katarken, Manhattan mesafesi her ölçüme eşit ağırlık verir.