Bu iki soru: biri ortalama ve medyanın kayıp fonksiyonlarını nasıl en aza indirdiği ve diğeri duyarlılıklar hakkında de bu tahminlerin verilere . Göreceğimiz gibi iki soru birbiriyle bağlantılıdır.
Kaybı En Aza İndirme
Merkezin bir özeti (veya tahmincisi) sayı grubunun , özet değer değişikliğine izin verilerek ve gruptaki her sayının bu değer üzerinde bir geri yükleme kuvveti uyguladığını hayal ederek oluşturulabilir. Kuvvet, değeri asla bir sayıdan uzağa itmediğinde, kuvvetler dengesinin, partinin bir "merkezi" olduğu tartışmalı bir şekilde.
İkinci dereceden ( L2 ) Kayıp
Örneğin , özet ve her sayı arasına klasik bir yay ( Hooke Yasası uyarınca ) bağlayacak olsaydık, kuvvet her bir yaya olan mesafeyle orantılı olurdu. Yaylar özeti bu şekilde çeker ve sonunda asgari enerjinin eşsiz bir kararlı konumuna yerleşir.
Yeni meydana gelen el sıkışmasına dikkat çekmek istiyorum: enerji , kare mesafelerin toplamıyla orantılıdır . Newton mekaniği bize gücün enerji değişim hızı olduğunu öğretir. Dengenin sağlanması - enerjinin en aza indirilmesi - kuvvetlerin dengelenmesi ile sonuçlanır. Enerjideki net değişim oranı sıfırdır.
Buna " özeti" veya "kare kayıp özeti" diyelim .L2
Mutlak ( ) KaybıL1
Değer ile veri arasındaki mesafelere bakılmaksızın geri yükleme kuvvetlerinin boyutlarının sabit olduğunu varsayarak başka bir özet oluşturulabilir . Ancak kuvvetlerin kendileri sabit değildir, çünkü her zaman değeri her veri noktasına doğru çekmelidirler. Böylece, değer veri noktasından daha az olduğunda kuvvet pozitif olarak yönlendirilir, ancak değer veri noktasından daha büyük olduğunda kuvvet negatif olarak yönlendirilir. Şimdi enerji , değer ve veri arasındaki mesafelerle orantılıdır. Tipik olarak, enerjinin sabit olduğu ve net kuvvetin sıfır olduğu bir bölge olacaktır. Bu bölgedeki herhangi bir değere " özeti" veya "mutlak zarar özeti" diyebiliriz .L1
Bu fiziksel analojiler iki özet hakkında faydalı sezgiler sağlar. Örneğin, veri noktalarından birini taşıdığımızda özete ne olur? Yaylar takılı olan durumunda, bir veri noktasının hareket ettirilmesi ya yayını uzatır ya da gevşetir. Sonuç, özet üzerinde yürürlükte olan bir değişikliktir, bu nedenle yanıt olarak değişmelidir. Ama içinde L 1 durumunda, bir veri noktası bir değişiklik özetine şey yapmaz çoğu zaman, kuvvet lokal sabittir çünkü. Kuvvetin değişebilmesinin tek yolu veri noktasının özet içinde hareket etmesidir.L2L1
(Aslında, bir değer üzerindeki net kuvvetin, onu yukarı doğru çeken - onu aşağı çeken - eksi ondan daha az olan nokta sayısından - aşağı doğru çeken daha fazla nokta sayısıyla verildiği açıktır. özet veriler değerlerin sayısı tam olarak bu daha az veri değerleri sayısına eşittir aşan herhangi bir yerde gerçekleşmelidir.)L1
Kayıpları Gösterme
Hem kuvvetler hem de enerjiler toplandığından, her iki durumda da net enerjiyi veri noktalarından bireysel katkılara ayırabiliriz. Enerjiyi veya kuvveti özet değerin bir fonksiyonu olarak grafikleyerek, neler olduğunu detaylı bir şekilde görebilirsiniz. Özet, enerjinin (veya istatistiksel açıdan “kayıp”) en küçük olduğu bir yer olacaktır. Eşdeğer olarak, dengeyi zorlayan bir konum olacaktır: verilerin merkezi, kayıptaki net değişimin sıfır olduğu yerlerde ortaya çıkar.
Bu şekilde, altı değerden oluşan küçük bir veri kümesi için enerjiler ve kuvvetler gösterilmektedir (her grafikte soluk dikey çizgilerle işaretlenmiştir). Kesikli siyah eğriler, tek tek değerlerin katkılarını gösteren renkli eğrilerin toplamıdır. X ekseni, özetin olası değerlerini gösterir.
Aritmetik ortalama üst sol arsa siyah parabol tepe noktasına (altta) yer alacak: kare kaybı minimize edilir bir noktadır. Her zaman benzersizdir. Orta mutlak kaybı minimize edilir bir husustur. Yukarıda belirtildiği gibi, verilerin ortasında gerçekleşmelidir. Mutlaka benzersiz değildir. Sağ üstteki kırık siyah eğrinin alt kısmında bulunur. (Taban aslında ve - 0.17 arasında kısa bir düz bölümden oluşur ; bu aralıktaki herhangi bir değer bir ortancadır.)−0.23−0.17
Hassasiyeti Analiz Etme
Daha önce bir veri noktası değiştiğinde özete ne olabileceğini anlattım. Herhangi bir tek veri noktasını değiştirmeye yanıt olarak özetin nasıl değiştiğini çizmek öğreticidir. (Bu grafikler esasen ampirik etki fonksiyonlarıdır . Bu değerlerin ne kadar değiştirildiğinden ziyade tahminlerin gerçek değerlerini göstermeleri bakımından olağan tanımdan farklıdırlar.) Özetin değeri, y üzerinde "Tahmin" olarak etiketlenir - bu özetin veri kümesinin ortasının nerede olduğunu tahmin ettiğini bize hatırlatmak için. Her veri noktasının yeni (değiştirilmiş) değerleri x eksenlerinde gösterilir.
Bu şekil, toplu işteki veri değerlerinin her birini değiştirmenin sonuçlarını gösterir (aynı şekilde ilk şekilde analiz edilmiştir). Her veri değeri için, alt ekseni boyunca uzun siyah bir kenetle çiziminde vurgulanan bir grafik vardır. (Kalan veri değerleri kısa gri kenelerle gösterilir.) Mavi eğri L 2 özetini - aritmetik ortalama - ve kırmızı eğri L 1'i izler.−1.02,−0.82,−0.23,−0.17,−0.08,0.77L2L1özet - medyan. (Genellikle medyan bir değer aralığı olduğundan, bu aralığın ortasını çizme kuralı burada takip edilir.)
Farkına varmak:
Ortalamanın duyarlılığı sınırsızdır: bu mavi çizgiler sonsuz ölçüde yukarı ve aşağı uzanır. Medyanın hassasiyeti sınırlıdır: kırmızı eğrilerin üst ve alt sınırları vardır.
Ancak medyanın değiştiği yerde, ortalamadan çok daha hızlı değişir. Her mavi çizginin eğimi (genellikle 1 /1/6 n değerlerinesahip bir veri kümesi için n'dir ), oysa kırmızı çizgilerin eğik parçalarının eğimlerinin tümü 1 / 2'dir .1/nn1/2
Ortalama her veri noktasına duyarlıdır ve bu duyarlılığın sınırı yoktur (ilk şeklin sol alt grafiğindeki tüm renkli çizgilerin sıfır olmayan eğimleri belirttiği gibi). Medyan her veri noktasına duyarlı olmasına rağmen, duyarlılık sınırlıdır (bu nedenle ilk şeklin sağ alt grafiğindeki renkli eğriler sıfır civarında dar bir dikey aralıkta bulunur). Bunlar, elbette, temel kuvvet (kayıp) yasasının sadece görsel yinelemeleridir: ortalama için ikinci dereceden, medyan için doğrusal.
Medyanın değişmek için yapılabileceği aralık veri noktaları arasında değişebilir. Her zaman değişken olmayan veriler arasında orta-yakın değerlerden ikisi ile sınırlıdır . (Bu sınırlar hafif dikey kesik çizgilerle işaretlenmiştir.)
Medyan değişim hızı her zaman için , miktarı bu nedenle farklı olabilir hangi veri kümesinin yakın orta değerler arasındaki boşluğun uzunluğu ile belirlenir.1/2
Sadece ilk nokta yaygın olarak belirtilmesine rağmen, dört noktanın tümü önemlidir. Özellikle,
"Medyan her değere bağlı değildir" kesinlikle yanlıştır. Bu şekilde bir karşı örnek verilmektedir.
Bununla birlikte, medyan, bireysel değerleri değiştirmek medyanı değiştirebilse de, değişiklik miktarının veri kümesindeki orta-yakın değerler arasındaki boşluklarla sınırlı olması bakımından her bir değere "maddi olarak" bağlı değildir . Özellikle, değişiklik miktarı sınırlıdır . Medyanın "dirençli" bir özet olduğunu söylüyoruz.
Her ne kadar ortalama dayanıklı değildir ve her değiştirecek herhangi bir veri değeri değiştirilir, değişim oranı nispeten küçüktür. Veri kümesi ne kadar büyük olursa, değişiklik oranı da o kadar küçük olur. Eşdeğer olarak, büyük bir veri kümesinin ortalamasında maddi bir değişiklik üretmek için, en az bir değer nispeten büyük bir varyasyona tabi tutulmalıdır. Bu, ortalamanın dirençsizliğinin yalnızca (a) küçük veri kümeleri veya (b) bir veya daha fazla verinin, kümenin ortasından çok uzakta değerlere sahip olabileceği veri kümeleri için önemli olduğunu gösterir.
Bu ifadeler - umarım rakamlar belirginleşir - kayıp fonksiyonu ile kestirimcinin hassasiyeti (veya direnci) arasında derin bir bağlantı olduğunu gösterir . Bununla ilgili daha fazla bilgi için M tahmin edicileri hakkındaki Wikipedia makalelerinden biriyle başlayın ve daha sonra bu fikirleri istediğiniz kadar takip edin.
kod
Bu R
kod rakamları üretti ve diğer veri kümelerini aynı şekilde incelemek için kolayca değiştirilebilir: rastgele oluşturulmuş vektörü y
herhangi bir sayı vektörü ile değiştirin .
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}