Bu sorunun çok cevabı var. İşte muhtemelen başka bir yerde görmeyeceğinizden biri, bu yüzden buraya ekliyorum çünkü konuyla ilgili olduğuna inanıyorum. İnsanlar genellikle, medyanın aykırı değerlere karşı sağlam bir önlem olarak kabul edildiğinden, çoğu şeyin de sağlam olduğunu düşünür. Aslında, çarpık dağıtımlarda yanlılığa karşı dayanıklı olduğu da düşünülmektedir. Medyanın bu iki sağlam özelliği genellikle birlikte öğretilir. Altta yatan eğri dağılımların da aykırı değerlere sahip gibi görünen küçük örnekler üretme eğiliminde olduğu ve geleneksel bilgeliğin, böyle durumlarda medyan kullandığı söylenebilir.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(Bunun çarpık ve temel şekil olduğuna dair bir gösteri)
hist(rexg(1e4, 0, 1, 1))
Şimdi, bu dağıtımdan çeşitli örneklem büyüklüklerini örneklendirirsek ve medyanı hesaplarsak ve aralarındaki farkların ne olduğunu görmek istersek ne olacağını görelim.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Yukarıdaki çizimden görülebileceği gibi, ortanca (kırmızı), ortalığa n'den çok daha hassastır. Bu, özellikle dağılımı bükülmüşse, düşük ns'li medyanların kullanılmasıyla ilgili bazı geleneksel bilgeliğe aykırıdır. Ve, ortanca bilinen bir değer olduğu anlamına gelirken, medyan diğer özelliklere duyarlıdır;
Bu analiz Miller, J. (1988) 'e benzer. Medyan reaksiyon zamanı hakkında bir uyarı. Deneysel Psikoloji Dergisi: İnsan Algısı ve Performansı , 14 (3): 539-543.
REVİZYON
Çarpıklık sorununu düşündüğümde, medyan üzerindeki etkinin sadece küçük örneklerde medyanın dağılımın kuyruğunda olma ihtimalinin daha yüksek olması ihtimalinin olabileceğini düşündüm. modu. Bu nedenle, belki de bir kişi aykırı bir olasılıkla örnekleme yapıyorsa, o zaman aynı sonuçlar ortaya çıkabilir.
Bu yüzden aykırı olayların olabileceği durumlar hakkında düşündüm ve deneyciler onları ortadan kaldırmaya çalıştı.
Eğer aykırı değerler, örneğin her veri örneklemesinden birinde olduğu gibi tutarlı bir şekilde gerçekleştiyse, medyanlar bu aykırı etkisine ve medyanların kullanımıyla ilgili konvansiyonel öykünün etkisine karşı sağlamdır.
Ama genellikle işler böyle gitmez.
Bir deneyi çok az sayıda hücrede bir outlier bulabilir ve bu durumda ortalama yerine medyan kullanmaya karar verebilir. Yine, medyan daha sağlamdır, ancak gerçek etkisi göreceli olarak düşüktür çünkü çok az aykırı değer vardır. Bu, kesinlikle yukarıdakilerden daha yaygın bir durum olacaktır, ancak medyan kullanmanın etkisi muhtemelen çok da önemli olmayacaktı.
Muhtemelen daha yaygın aykırı değerler, verilerin rastgele bir bileşeni olabilir. Örneğin, popülasyonun gerçek ortalama ve standart sapması yaklaşık 0 olabilir, ancak ortalamanın 3 olduğu bir dışlayıcı popülasyondan örnekleme zamanımızın bir yüzdesi vardır. Bu tür bir popülasyonun numuneyi değiştirdiği örneklemin bulunduğu aşağıdaki simülasyonu göz önünde bulundurun boyut.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Ortanca kırmızıdır ve siyahtır. Bu, çarpık bir dağılımınkine benzer bir bulgudur.
Aykırı değerlerin etkilerinden kaçınmak için medyanların kullanımına ilişkin nispeten pratik bir örnekte, medyan kullanıldığında tahminin n'den daha fazla etkilendiği durumlar ortaya çıkmaktadır.