Ortalama ve Medyan özellikler


18

Birisi bana iki (a) ve (b) ifadesini birbirine bağlayacak matematiksel mantığı açıklayabilir mi? Bir dizi değer verelim (bazı dağılımlar). Şimdi,

a) Medyan her değere bağlı değildir [sadece bir veya iki orta değere bağlıdır]; b) Medyan, ondan minimum mutlak sapma toplamı odağıdır.

Ve aynı şekilde ve aksine,

a) (Aritmetik) ortalama her değere bağlıdır; b) Ortalama, ondan minimum kare-sapma toplamının odağıdır.

Şimdiye kadarki kavrayışım sezgisel.


1
Aynı sorunun eski bir sürümünü gözden geçirmeye değer : stats.stackexchange.com/questions/2547/… Ve Sağlam İstatistiklerin bir açıklaması: en.wikipedia.org/wiki/Robust_statistics
bill_080

Bu nedenle, ilk çift için peşinde olduğunuz şey, genellikle orta düzey değer olarak tanımlanan medyanın (yine de tek bir değer için, en basit durumla başlamak için) aynı zamanda toplamı en aza indiren değer olduğunun kanıtıdır. mutlak sapmalar? Tercihen sezgisel bir fikir veren bir kanıt mı? Kendime dair bir kanıt bilmiyorum, bu yüzden iyi bir soru gibi görünüyor ve cevabını da bilmek istiyorum.
onestop

Beni doğru hissediyorsun. (a) ve (b) şu anda her iki istatistik için aklımdaki ayrı yönler / özelliklerdir; ama sezgi iki yönün bağlı olduğunu gösterir. Bilmek istiyorum - nasıl bağlandıklarını, hepsini derinden anlamak için.
ttnphns

Yanıtlar:


20

Bu iki soru: biri ortalama ve medyanın kayıp fonksiyonlarını nasıl en aza indirdiği ve diğeri duyarlılıklar hakkında de bu tahminlerin verilere . Göreceğimiz gibi iki soru birbiriyle bağlantılıdır.

Kaybı En Aza İndirme

Merkezin bir özeti (veya tahmincisi) sayı grubunun , özet değer değişikliğine izin verilerek ve gruptaki her sayının bu değer üzerinde bir geri yükleme kuvveti uyguladığını hayal ederek oluşturulabilir. Kuvvet, değeri asla bir sayıdan uzağa itmediğinde, kuvvetler dengesinin, partinin bir "merkezi" olduğu tartışmalı bir şekilde.

İkinci dereceden ( L2 ) Kayıp

Örneğin , özet ve her sayı arasına klasik bir yay ( Hooke Yasası uyarınca ) bağlayacak olsaydık, kuvvet her bir yaya olan mesafeyle orantılı olurdu. Yaylar özeti bu şekilde çeker ve sonunda asgari enerjinin eşsiz bir kararlı konumuna yerleşir.

Yeni meydana gelen el sıkışmasına dikkat çekmek istiyorum: enerji , kare mesafelerin toplamıyla orantılıdır . Newton mekaniği bize gücün enerji değişim hızı olduğunu öğretir. Dengenin sağlanması - enerjinin en aza indirilmesi - kuvvetlerin dengelenmesi ile sonuçlanır. Enerjideki net değişim oranı sıfırdır.

Buna " özeti" veya "kare kayıp özeti" diyelim .L2

Mutlak ( ) KaybıL1

Değer ile veri arasındaki mesafelere bakılmaksızın geri yükleme kuvvetlerinin boyutlarının sabit olduğunu varsayarak başka bir özet oluşturulabilir . Ancak kuvvetlerin kendileri sabit değildir, çünkü her zaman değeri her veri noktasına doğru çekmelidirler. Böylece, değer veri noktasından daha az olduğunda kuvvet pozitif olarak yönlendirilir, ancak değer veri noktasından daha büyük olduğunda kuvvet negatif olarak yönlendirilir. Şimdi enerji , değer ve veri arasındaki mesafelerle orantılıdır. Tipik olarak, enerjinin sabit olduğu ve net kuvvetin sıfır olduğu bir bölge olacaktır. Bu bölgedeki herhangi bir değere " özeti" veya "mutlak zarar özeti" diyebiliriz .L1

Bu fiziksel analojiler iki özet hakkında faydalı sezgiler sağlar. Örneğin, veri noktalarından birini taşıdığımızda özete ne olur? Yaylar takılı olan durumunda, bir veri noktasının hareket ettirilmesi ya yayını uzatır ya da gevşetir. Sonuç, özet üzerinde yürürlükte olan bir değişikliktir, bu nedenle yanıt olarak değişmelidir. Ama içinde L 1 durumunda, bir veri noktası bir değişiklik özetine şey yapmaz çoğu zaman, kuvvet lokal sabittir çünkü. Kuvvetin değişebilmesinin tek yolu veri noktasının özet içinde hareket etmesidir.L2L1

(Aslında, bir değer üzerindeki net kuvvetin, onu yukarı doğru çeken - onu aşağı çeken - eksi ondan daha az olan nokta sayısından - aşağı doğru çeken daha fazla nokta sayısıyla verildiği açıktır. özet veriler değerlerin sayısı tam olarak bu daha az veri değerleri sayısına eşittir aşan herhangi bir yerde gerçekleşmelidir.)L1

Kayıpları Gösterme

Hem kuvvetler hem de enerjiler toplandığından, her iki durumda da net enerjiyi veri noktalarından bireysel katkılara ayırabiliriz. Enerjiyi veya kuvveti özet değerin bir fonksiyonu olarak grafikleyerek, neler olduğunu detaylı bir şekilde görebilirsiniz. Özet, enerjinin (veya istatistiksel açıdan “kayıp”) en küçük olduğu bir yer olacaktır. Eşdeğer olarak, dengeyi zorlayan bir konum olacaktır: verilerin merkezi, kayıptaki net değişimin sıfır olduğu yerlerde ortaya çıkar.

Bu şekilde, altı değerden oluşan küçük bir veri kümesi için enerjiler ve kuvvetler gösterilmektedir (her grafikte soluk dikey çizgilerle işaretlenmiştir). Kesikli siyah eğriler, tek tek değerlerin katkılarını gösteren renkli eğrilerin toplamıdır. X ekseni, özetin olası değerlerini gösterir.

Şekil 1

Aritmetik ortalama üst sol arsa siyah parabol tepe noktasına (altta) yer alacak: kare kaybı minimize edilir bir noktadır. Her zaman benzersizdir. Orta mutlak kaybı minimize edilir bir husustur. Yukarıda belirtildiği gibi, verilerin ortasında gerçekleşmelidir. Mutlaka benzersiz değildir. Sağ üstteki kırık siyah eğrinin alt kısmında bulunur. (Taban aslında ve - 0.17 arasında kısa bir düz bölümden oluşur ; bu aralıktaki herhangi bir değer bir ortancadır.)0.230.17

Hassasiyeti Analiz Etme

Daha önce bir veri noktası değiştiğinde özete ne olabileceğini anlattım. Herhangi bir tek veri noktasını değiştirmeye yanıt olarak özetin nasıl değiştiğini çizmek öğreticidir. (Bu grafikler esasen ampirik etki fonksiyonlarıdır . Bu değerlerin ne kadar değiştirildiğinden ziyade tahminlerin gerçek değerlerini göstermeleri bakımından olağan tanımdan farklıdırlar.) Özetin değeri, y üzerinde "Tahmin" olarak etiketlenir - bu özetin veri kümesinin ortasının nerede olduğunu tahmin ettiğini bize hatırlatmak için. Her veri noktasının yeni (değiştirilmiş) değerleri x eksenlerinde gösterilir.

şekil 2

Bu şekil, toplu işteki veri değerlerinin her birini değiştirmenin sonuçlarını gösterir (aynı şekilde ilk şekilde analiz edilmiştir). Her veri değeri için, alt ekseni boyunca uzun siyah bir kenetle çiziminde vurgulanan bir grafik vardır. (Kalan veri değerleri kısa gri kenelerle gösterilir.) Mavi eğri L 2 özetini - aritmetik ortalama - ve kırmızı eğri L 1'i izler.1.02,0.82,0.23,0.17,0.08,0.77L2L1özet - medyan. (Genellikle medyan bir değer aralığı olduğundan, bu aralığın ortasını çizme kuralı burada takip edilir.)

Farkına varmak:

  1. Ortalamanın duyarlılığı sınırsızdır: bu mavi çizgiler sonsuz ölçüde yukarı ve aşağı uzanır. Medyanın hassasiyeti sınırlıdır: kırmızı eğrilerin üst ve alt sınırları vardır.

  2. Ancak medyanın değiştiği yerde, ortalamadan çok daha hızlı değişir. Her mavi çizginin eğimi (genellikle 1 /1/6 n değerlerinesahip bir veri kümesi için n'dir ), oysa kırmızı çizgilerin eğik parçalarının eğimlerinin tümü 1 / 2'dir .1/nn1/2

  3. Ortalama her veri noktasına duyarlıdır ve bu duyarlılığın sınırı yoktur (ilk şeklin sol alt grafiğindeki tüm renkli çizgilerin sıfır olmayan eğimleri belirttiği gibi). Medyan her veri noktasına duyarlı olmasına rağmen, duyarlılık sınırlıdır (bu nedenle ilk şeklin sağ alt grafiğindeki renkli eğriler sıfır civarında dar bir dikey aralıkta bulunur). Bunlar, elbette, temel kuvvet (kayıp) yasasının sadece görsel yinelemeleridir: ortalama için ikinci dereceden, medyan için doğrusal.

  4. Medyanın değişmek için yapılabileceği aralık veri noktaları arasında değişebilir. Her zaman değişken olmayan veriler arasında orta-yakın değerlerden ikisi ile sınırlıdır . (Bu sınırlar hafif dikey kesik çizgilerle işaretlenmiştir.)

  5. Medyan değişim hızı her zaman için , miktarı bu nedenle farklı olabilir hangi veri kümesinin yakın orta değerler arasındaki boşluğun uzunluğu ile belirlenir.1/2

Sadece ilk nokta yaygın olarak belirtilmesine rağmen, dört noktanın tümü önemlidir. Özellikle,

  • "Medyan her değere bağlı değildir" kesinlikle yanlıştır. Bu şekilde bir karşı örnek verilmektedir.

  • Bununla birlikte, medyan, bireysel değerleri değiştirmek medyanı değiştirebilse de, değişiklik miktarının veri kümesindeki orta-yakın değerler arasındaki boşluklarla sınırlı olması bakımından her bir değere "maddi olarak" bağlı değildir . Özellikle, değişiklik miktarı sınırlıdır . Medyanın "dirençli" bir özet olduğunu söylüyoruz.

  • Her ne kadar ortalama dayanıklı değildir ve her değiştirecek herhangi bir veri değeri değiştirilir, değişim oranı nispeten küçüktür. Veri kümesi ne kadar büyük olursa, değişiklik oranı da o kadar küçük olur. Eşdeğer olarak, büyük bir veri kümesinin ortalamasında maddi bir değişiklik üretmek için, en az bir değer nispeten büyük bir varyasyona tabi tutulmalıdır. Bu, ortalamanın dirençsizliğinin yalnızca (a) küçük veri kümeleri veya (b) bir veya daha fazla verinin, kümenin ortasından çok uzakta değerlere sahip olabileceği veri kümeleri için önemli olduğunu gösterir.

Bu ifadeler - umarım rakamlar belirginleşir - kayıp fonksiyonu ile kestirimcinin hassasiyeti (veya direnci) arasında derin bir bağlantı olduğunu gösterir . Bununla ilgili daha fazla bilgi için M tahmin edicileri hakkındaki Wikipedia makalelerinden biriyle başlayın ve daha sonra bu fikirleri istediğiniz kadar takip edin.


kod

Bu Rkod rakamları üretti ve diğer veri kümelerini aynı şekilde incelemek için kolayca değiştirilebilir: rastgele oluşturulmuş vektörü yherhangi bir sayı vektörü ile değiştirin .

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
Kalitenin yanı sıra, cevapların özenli, telaşsız tarzı nedeniyle bir ödül teklif ediyorum.
ttnphns

Teşekkür ederim! Bu gönderiyi takdir ettiğiniz için teşekkür ederiz.
whuber

11

Ortanca hesaplanması için izin veri olabilir. Basitlik için n'nin eşit olduğunu ve puanların farklı olduğunu varsayın ! Let y bir sayı olabilir. Let f ( y ) arasında 'sum of mutlak sapma' olmak y noktaları için x i . Bu, f ( y ) = | x 1 - y | + | x 2 - y | + x1,x2,,xnnyf(y)yxi. Amacınız bulmaktır y o en aza indirir f ( y ) . Let l sayısı, X i az ya da aynı olacak şekilde eşit olduğu y zaman içinde belirli bir noktada, ve izin r = n - l kesinlikle daha büyük olan sayı y . ' Y'yi sağa doğruhareket ettiriyorsunuz' gibi davranın, yani y'yi birazartırın. F ( y ) 'ye ne olur?f(y)=|x1y|+|x2y|++|xny|yf(y)lxiyr=nlyyyf(y)

Eğer bir miktar eklemek varsayalım için y . Olanlar için x i az ya da ona eşit olan y , elimizdeki | x i - y | artar Δ y . Ve y'den büyük olanlar için , var | x i - y | Δ y azalır . (Bu, Δ y'nin y'nin herhangi bir noktayı geçmeyeceği kadar küçük olduğunu varsayar ). Böylece değişiklik f ( y ) bir lΔyyxiy|xiy|Δyy|xiy|ΔyΔyyf(y) . F ( y ) ' deki bu değişikliğin x i'nin değerlerinedeğil, yalnızca y'nin solundaki ve sağındaki sayıya bağlı olduğunu unutmayın. Tanım olarak, y , sola veya sağa hareket ettirildiğinde f ( y ) ' yi arttırmaz veya azaltmaz. Bu, l - r = 0 ve dolayısıyla y'nin solundaki x i sayısının olduğuanlamına gelir.lΔyrΔy=(lr)Δyf(y)xiyyf(y)lr=0xiy sayısının, y'nin sağındaki sayıya eşit olduğu anlamına gelir.yxi

f(y)f(y)=(x1y)2++(xny)2f(y)yxiy

'Küçük değişiklik' ile ilgili bu işin sadece f(y)...


1
This sweeps some stuff under the rug concerning when you hit the next xi value, but is close enough to the handwavey proof desired, I think, at least for the median.
shabbychef

thank you for the elegant explication. However, it sounds to me so: "That number y which small change doesn't change function Sum|x_i-y| does not depend on each x_i and is called median". It's an interesting note on median of an even n data. But I was asking to prove this: "That number y which minimizes function Sum|x_i-y| does not depend on each x_i and is called median". And similarly: "That number y which minimizes function Sum(x_i-y)^2 depends equally on each x_i and is called mean".
ttnphns

1
how am I supposed to prove the 'is called median' part? That's crazy.
shabbychef

It's a trope of cause. This part is not to prove, I hoped you understand.
ttnphns

1
Is there a similar result for median of absolute deviations instead of sum of absolute deviations? Because Median Absolute Deviation from the Median is also quite an interesting measure of dispersion.
samthebest

3
  • Roughly speaking, the median is the "middle value". Now, if you change the highest value (which is supposed to be positive here) from x(n) to 2x(n), say, it does not change the median. But it does change the arithmetic mean. This shows, in simple terms, that the median does not depend on every value while the mean does. Actually, the median only depends on the ranks. The mathematical logic behind this simply arises from the mathematical definitions of the median and the mean.
  • Now, it can be shown that, for any aR

i=1n|ximedian|i=1n|xia|

and

i=1n(ximean)2i=1n(xia)2


Well, as an experienced statistician lacking fundamental maths education I still know about Mean and Median differences and applications a lot. What I need here is somebody to DRAW - logically or mathematically - either (a) from (b) or (b) from (a), for me. I feel I can't harmonize (a) with (b) rationally myself. Marco, I find very difficult understanding your notation. If your formulas is the deduction I need please could you "chew over" the idea less technically for me?
ttnphns

P.S. As long as your two inequalities got finally displayed correctly on my screen I see it's merely my (b) statements. You write, "it can be shown that...". So do show me that. I need a kind of mathematical proof put in terms that are intelligible for data analyst who is not a professional mathematician.
ttnphns

2
@ttnphns: your request for a mathematical, rather than an intuitive, answer seems incompatible with your request for something less technical than what people have offered.
rolando2

Can we simplify the situation to 2 or three points and ask whether the median in the double summation non-strict inequality above has a unique value? With two points it would seem to be satisfied by any point between the 2.
DWin

2

Hey here is a contribution, after I read about it a bit. Probably a bit late for the person who asked, but maybe worth for someone else.

For the mean case :

Consider the problem argminxi=1n(yix)

Introduce f(x)=i=1n(yix)2

f(x)=02i=1n(yix)=0

f(x)=0i=1nyi=i=1nx

f(x)=0x=i=1nn

As the function is convex, this is a minimum

For the median case

Consider the problem argminxi=1n|yix|

Introduce f(x)=i=1n|yix|

f(x)=0i=1nsgn(yix)=0

(where sgn(x) is the sign of x : sgn(x)=1 if x>0 and sgn(x)=1 if x<0)

f(x)=0#{yi/yi>x}#{yi/yi<x}=0

(where # is the cardinal of the space, so in this discrete case, the number of elements in it)

f(x)=0x is the median if n is odd (you have to refine a bit if it is even, but the principle is the same).

As the function is convex too, this is a minimum again.


Thanks. It may be helpful for me and others. Can you add some comments in words for main of your expressions - for somebody who is not quite fluent in understanding formulas. In particularly, your last by one line - what does it mean and what is #?
ttnphns

Is it clear now ? I have defined the two less usual functions
Anthony Martin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.