Ortalama neden farklı örneklerde medyandan daha stabil olma eğilimindedir?


22

Andy'nin R Kullanarak İstatistiklerini Keşfetme Bölüm 1.7.2 ve diğerleri, ortalama vs medyanın erdemlerini listelerken:

... farklı numunelerde ortalama stabil olma eğilimindedir.

Medyan'ın birçok erdemini açıkladıktan sonra, örneğin

... Ortanca dağılımın her iki ucundaki uç noktalardan nispeten etkilenmez ...

Medyanın aşırı puanlardan nispeten etkilenmediği göz önüne alındığında, örnekler arasında daha istikrarlı olacağını düşünmüştüm. Bu yüzden yazarların iddiasına şaşırmıştım. Bir simülasyonu yürüttüğümü onaylamak için - 1M rasgele sayı ürettim ve 100 kez 1000 sayı örnekledim ve her bir örneğin ortalama ve medyanını hesapladım ve sonra bu örnek araçların ve medyanların sd değerini hesapladım.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Gördüğünüz gibi, araçlar medyanlardan daha sıkıca dağılmış durumda.

görüntü tanımını buraya girin

Ekteki resimde kırmızı histogram medyanlar içindir - görebildiğiniz gibi daha az boyludur ve yazarın iddiasını doğrulayan daha yağlı bir kuyruğu vardır.

Yine de bu konuda kızgınım! Daha kararlı olan medyan, nihayetinde örnekler arasında daha fazla çeşitlilik gösterme eğiliminde nasıl olabilir? Paradoksal görünüyor! Her görüşe değer verilir.


1
Evet, fakat <- rt (n = 10 ** 6, 1.1) rakamlarından örnekleme yaparak deneyin. Yani t1.1 dağılımı aşırı değerlerin bir demet verecektir mutlaka (dengesine olumsuz bir uç değer olarak başka olumlu aşırı değer almanın bir şans sadece iyi gibi), bu dev varyans içinde neden olacaktır pozitif ve negatif arasında dengeli değil . Medyan'a karşı kalkan budur. Normal dağılımın distribution x dağılımını ortancadan daha genişletmek için özellikle aşırı değerler vermesi pek mümkün değildir . x¯x¯
Dave,

10
Yazarın ifadesi genellikle doğru değildir. (Bu yazarın kitaplarındaki hatalarla ilgili birçok soru aldık, bu nedenle bu bir sürpriz değil.) Standart karşı örnekler , ortalamanın "kararlı" olduğu herhangi bir şey olduğu durumlarda (kararlı bir anlamda "kararlı dağıtımlar" arasında bulunur.) terimi) ve medyan çok daha kararlıdır.
whuber

1
“... ortalama, farklı örneklerde stabil olma eğilimindedir.” saçma bir ifadedir. "kararlılık" iyi tanımlanmamış. (Numune) ortalaması, tek bir numunede oldukça kararlıdır, çünkü normal olmayan bir miktardır. Veriler "kararsız" ise (çok değişken?) Ortalama da "kararsız" dır.
AdamO

1
Bu soru, istatistik.stackexchange.com/questions/7307 adresinde sunulan ayrıntılı analizlerle cevaplanmıştır , burada aynı soru belirli bir şekilde sorulur ("kararlı" duygusunun iyi tanımlandığı yerlerde).
whuber

2
Değiştirmeyi deneyin rnormile rcauchy.
Eric Towers,

Yanıtlar:


3

Medyan aykırılıklara karşı maksimum sağlamdır, ancak gürültüye karşı oldukça hassastır. Her bir noktaya az miktarda bir gürültü uygularsanız, gürültü noktaların göreceli sırasını değiştirmeyecek kadar küçük olduğu sürece, yayılmayan ortama girer. Demek istediğim, bu tam tersi. Gürültünün ortalaması alınır, ancak tek bir uygulayıcı ortalamayı keyfi olarak değiştirebilir.

Testiniz çoğunlukla gürültüye karşı dayanıklılığı ölçer, ancak medyanın daha iyi performans gösterdiği yerde kolayca bir tane oluşturabilirsiniz. Hem aykırı değerlere hem de gürültüye dayanıklı bir tahmin edici istiyorsanız, üst ve alt üçte birini atmanız ve geri kalanı ortalamanız yeterlidir.


Bu algoritma için "% 33 kesilmiş ortalamanın " dan daha belirgin bir adı var mı ?
David Cary

25

@Whuber ve diğerlerinin dediği gibi, ifade genel olarak doğru değildir. Daha sezgisel olmaya istekliysen - buradaki derin matematik meraklılarına ayak uyduramıyorum - ortalama ve medyanın istikrarlı olup olmadığına bakabilirsin. Bu örnekler için, tuhaf sayıda puan alın, böylece açıklamalarımı tutarlı ve basit tutabilirim.

  1. Sayı çizgisinde noktaların yayıldığını hayal edin. Şimdi ortadaki tüm noktaları aldığınızı ve değerlerini 10 katına çıkardığınızı hayal edin. Ortanca değişmez, ortalama önemli ölçüde hareket etti. Yani medyan daha kararlı görünüyor.

  2. Şimdi bu noktaların oldukça dağıldığını hayal edin. Merkez noktasını yukarı ve aşağı hareket ettirin. Bir-birim hareket medyanı birer birer değiştirir, ancak zar zor bir şekilde hareket ettirir. Ortanca artık tek noktadan küçük hareketlere karşı daha az kararlı ve daha hassas görünüyor.

  3. Şimdi en yüksek noktayı almayı ve en yumuşaktan en alçak noktaya kadar yumuşak bir şekilde hareket ettirmeyi hayal edin. Ortalama da sorunsuz hareket edecektir. Ancak medyan sürekli hareket etmeyecektir: yüksek puanınız önceki medyandan daha düşük olana kadar hiç bir şekilde hareket etmeyecektir, daha sonra bir sonraki noktanın altına inene kadar noktayı takip etmeye başlar, daha sonra medyan o noktaya yapışır ve tekrar aşağı doğru hareket etmeye devam ederken hareket etmeyin. [Yorum başına düzenlenmiş]

Bu yüzden puanlarınızdaki farklı dönüşümler, ya bir anlamda, ya ortalama ya da medyanın daha az yumuşak ya da sabit görünmesine neden olur. Buradaki matematiksel saldırganlar size deneyimlerinize daha yakından uyan örneklemler yapabileceğiniz dağılımları gösterdiler, ancak umarım bu sezgi de yardımcı olur.


1
Madde 3 ile ilgili olarak: Ortanca da sorunsuz hareket etmez mi? İlk nokta kümesinin olduğunu söyleyin [1, 3, 5, 7, 9]. Başlangıçta medyandır 5. Bu, ortanca beşinci nokta (başlangıçta 9) aşağıya düşene kadar ortanca olarak kalacaktır, 5bu noktada ortanca ortancanda kalacağı yere vurana kadar azaldıkça beşinci noktayı düzgün bir şekilde takip 3edecektir 3. Dolayısıyla, medyanı tanımlayan nokta "atlama" (üçüncü noktadan, beşinci noktaya, ikinci noktaya kadar) olsa da, medyanın gerçek değerinde atlama / süreksizlik yoktur.
Scott M,

@ScottM Doğru görünüyorsun. Neden atlayacağını düşündüğümden emin değilim. Bir şans bulduğum zaman cevaplayacağım.
Wayne,

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR,. Örnek ortalamanın ve örnek medyanının asimptotik varyansı sırasıyla:

V(X¯n)=σ2nV(X~n)σ2n14f~(m-μσ)-2.

Bu nedenle bizde:

V(X¯n)V(X~n)4f~(m-μσ)2.

n

V(X¯n)<V(X~n)f*f~(m-μσ)<12.

nf*=1/2π=0.3989423<1/2


Müthiş! Teşekkürler.
Alok Lal

4

Yorum: Sadece SDS araçlarının ve medyanlarının tam tersi sonucunu aldığı bir dağıtım kullanarak simülasyonunuzu tekrar yansıtmak için:

Spesifik olarak, numsşimdi aynı orana sahip iki üstel dağılımın farkı olarak simüle edilebilen bir Laplace dağıtımından ('çifte üstel' olarak da adlandırılır) geliyor (burada varsayılan oran 1). [Belki de Laplace dağıtımlarında Wikipedia'ya bakınız .]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

görüntü tanımını buraya girin

Not: @ whuber'ın bağlantısında açıkça belirtilen bir diğer kolay olasılık, öğrencinin bir derece serbestlik derecesiyle dağılımı olarak simüle edilebilecek Cauchy'dir rt(10^6, 1). Ancak, kuyrukları o kadar ağır ki, güzel bir histogram yapmak problemli.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.