Andy'nin R Kullanarak İstatistiklerini Keşfetme Bölüm 1.7.2 ve diğerleri, ortalama vs medyanın erdemlerini listelerken:
... farklı numunelerde ortalama stabil olma eğilimindedir.
Medyan'ın birçok erdemini açıkladıktan sonra, örneğin
... Ortanca dağılımın her iki ucundaki uç noktalardan nispeten etkilenmez ...
Medyanın aşırı puanlardan nispeten etkilenmediği göz önüne alındığında, örnekler arasında daha istikrarlı olacağını düşünmüştüm. Bu yüzden yazarların iddiasına şaşırmıştım. Bir simülasyonu yürüttüğümü onaylamak için - 1M rasgele sayı ürettim ve 100 kez 1000 sayı örnekledim ve her bir örneğin ortalama ve medyanını hesapladım ve sonra bu örnek araçların ve medyanların sd değerini hesapladım.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Gördüğünüz gibi, araçlar medyanlardan daha sıkıca dağılmış durumda.
Ekteki resimde kırmızı histogram medyanlar içindir - görebildiğiniz gibi daha az boyludur ve yazarın iddiasını doğrulayan daha yağlı bir kuyruğu vardır.
Yine de bu konuda kızgınım! Daha kararlı olan medyan, nihayetinde örnekler arasında daha fazla çeşitlilik gösterme eğiliminde nasıl olabilir? Paradoksal görünüyor! Her görüşe değer verilir.
rnorm
ile rcauchy
.