Hangi (simetrik) dağılımlar için örnek, örnek medyandan daha verimli bir tahmin edicidir?


17

Örnek medyanının, örneklerin ortalamasının daha sağlam bir ölçüsü olduğu inancı altında çalıştım, çünkü aykırı değerleri göz ardı eder. Bu nedenle ( başka bir soruya cevap olarak ) normal bir dağılımdan alınan numuneler için, numune ortalamasının varyansının, numune medyanının varyansından daha az olduğunu (en azından büyükler için)n ).

Bunun neden doğru olduğunu matematiksel olarak anlıyorum. Buna diğer dağıtımlar için ortalamadan ziyade medyanın ne zaman kullanılacağı konusunda sezgiye yardımcı olacak "felsefi" bir bakış açısı var mı?

Belirli bir dağıtım için soruyu hızlı bir şekilde cevaplamaya yardımcı olan matematiksel araçlar var mı?

Yanıtlar:


20

Diyelim ki, ortalamanın ve varyansın sonlu olduğu yerlerde simetrik dağılımları kısıtladığımızı varsayalım (yani Cauchy, örneğin dikkate alınmaz).

Dahası, kendimi başlangıçta sürekli tek modlu olmayan vakalarla ve gerçekten de çoğunlukla 'güzel' durumlarla sınırlayacağım (ancak daha sonra geri gelebilir ve diğer bazı vakaları tartışabilirim).

Bağıl sapma numune boyutuna bağlıdır. Asimptotik varyansların oranını ( kez) tartışmak yaygındır , ancak daha küçük örnek boyutlarında durumun biraz farklı olacağını unutmayın. (Medyan bazen asemptotik davranışının önerdiğinden belirgin şekilde daha iyi veya daha kötüdür. Örneğin, n = 3 ile normalde % 63 yerine yaklaşık% 74'lük bir verime sahiptir. Asimptotik davranış genellikle oldukça ılımlı bir şekilde iyi bir rehberdir örnek boyutları olsa da.)nn=3

Asimptotiklerle başa çıkmak oldukça kolaydır:

Ortalama: varyans = σ 2 .n×σ2

Ortalama : varyans = 1n× buradaf(m)1[4f(m)2]f(m) , ortanca yoğunluğun yüksekliğidir.

Yani f(m)>12σ , medyan asimptotik olarak daha verimli olacaktır.

[Normal durumda, , yani1f(m)=12πσ , nereye asimptotik göreli etkinlik2/π1[4f(m)2]=πσ222/π )]

Medyanın varyansının merkeze çok yakın yoğunluğun davranışına bağlı olacağını görebiliriz, ortalamanın varyansı ise orijinal dağılımın varyansına bağlıdır (ki bu bir anlamda her yerde yoğunluktan etkilenir ve özellikle, bu arada merkezden daha fazla hareket eder)

Yani, medyan ortalamadan daha düşük değerlerden daha az etkilenirken ve sık sık dağılımın ağır kuyruklu olduğu (daha fazla aykırı değer üreten) ortalamadan daha düşük varyansa sahip olduğunu görüyoruz. medyan inliers . Genellikle (sabit bir varyans için) ikisinin birlikte gitme eğilimi vardır.

Yani, genel olarak, kuyruk ağırlaştıkça, ( sabit bir değerinde ) dağılımın aynı zamanda "daha barışçı" olma eğilimi vardır (daha kurtotik, gevşek bir anlamda). Bununla birlikte, bu belirli bir şey değildir - geniş çapta yaygın olarak kabul edilen yoğunluklarda böyle olma eğilimindedir, ancak her zaman geçerli değildir. Tutarsa, medyanın varyansı azalacaktır (çünkü dağılımın medyanın yakın mahallesinde daha fazla olasılığı vardır), ortalamanın varyansı sabit tutulur (çünkü σ 2'yi sabitledikσ2σ2 ).

Bu nedenle, çeşitli yaygın vakalarda, medyan, kuyruk ağır olduğunda ortalamadan daha iyi "daha iyi" olma eğiliminde olacaktır (ancak karşı örnekler oluşturmanın nispeten kolay olduğunu akılda tutmamız gerekir). Bu yüzden, sık sık ne gördüğümüzü gösterebilecek birkaç vakayı düşünebiliriz, ancak onlara çok fazla okumamalıyız, çünkü daha ağır kuyruk evrensel olarak daha yüksek zirveye sahip değildir.

Medyanın normaldeki ortalama kadar yaklaşık% 63.7 ( büyük için) etkili olduğunu biliyoruz .n

Peki , normal gibi merkez hakkında yaklaşık parabolik olan ancak daha ağır kuyrukları olan bir lojistik dağılım diyelim ( büyüdükçe üstel hale gelir).x

Biz 1 olmak ölçek parametresini ele alırsak, lojistik değişkenliğe sahiptir yüzden, 1/4 ortanca ve yüksekliği 1π2/3. Varyans oranı daha sonra,π2/120.82,büyük örneklerde, yani medyan ortalama kadar verimli yaklaşık% 82'dir.14f(m)2=4π2/120.82

Üstel benzeri kuyruklara sahip iki farklı yoğunluğu, ancak farklı zirveyi düşünelim.

İlk olarak, standart formun varyans 1 ve yüksekliğin 1 ortasında olduğu hiperbolik sekant ( ) dağılımısech , asimptotik varyansların oranı 1'dir (ikisi büyük örneklerde eşit derecede etkilidir). Bununla birlikte, küçük numunelerde ortalama daha etkilidir (varyansı,örneğinn=5olduğunda ortanca için yaklaşık% 95'tir).12n=5

Burada, bu üç yoğunlukta (varyans sabitini tutarak) ilerledikçe, medyandaki yüksekliğin nasıl arttığını görebiliriz:

resim açıklamasını buraya girin

Hala daha yüksek yapabilir miyiz? Gerçekten yapabiliriz. Örneğin, çift ​​üstel olanı düşünün . Standart formda varyans 2 vardır ve medyandaki yükseklik (yani şemadaki gibi birim varyansına ölçeklenirsek, tepe noktası1 olur12 , 0.7'nin biraz üzerinde). Medyanın asimptotik varyansı, ortalamanın yarısıdır.12

Dağıtım tavizini belirli bir varyans için hala yaparsak (belki de kuyruğu üstelden daha ağır hale getirerek), medyan hala çok daha verimli olabilir (nispeten konuşma). Bu zirvenin ne kadar yüksek olabileceğinin gerçekten bir sınırı yok.

Bunun yerine, t-dağılımlarından örnekler kullansaydık, geniş ölçüde benzer etkiler görülür, ancak ilerleme farklı olurdu; crossover noktası df'nin biraz altındadır (aslında 4.68 civarında) - daha küçük df için medyan daha verimlidir, büyük df için ortalamadır.ν=5

...

Sonlu örneklem büyüklüklerinde, bazen medyan dağılımının varyansını açıkça hesaplamak mümkündür. Mümkün olmadığında - hatta sadece rahatsız edici olduğunda - dağılımdan çizilen rastgele numuneler (yukarıdaki küçük örnek rakamları elde etmek için yaptığım şey) arasında medyanın (veya varyansın oranının *) varyansını hesaplamak için simülasyon kullanabiliriz. ).

* Genellikle ortalamanın varyansına ihtiyaç duymamıza rağmen, dağılımın varyansını biliyorsanız, bunu hesaplayabildiğimizden, bir kontrol değişkeni (ortalama ve medyan genellikle oldukça ilişkilidir).


1

f(x)=12e-|x-μ|,-<x<
beklentisi olan μ ve varyans 2. X1,X2,...,Xniid örneği olmak. Daha sonra büyük numuneler için aritmetik ortalama varyanslı (tam) bir normal dağılıma (yaklaşık olarak) sahip olacaktır.2/n, ortanca varyans ile asimptotik normal dağılıma sahip olacak 14nf(μ)2=14n/4=1/n<2/n, bu yüzden fark oldukça büyük.

Normal dağılım için (ile σ2=1) we get the opposite comparison, the arithmetic mean has variance (exact) 1/n while the median has variance (approximately, large n) 14n(1/2π)2=π2n1.57/n>1/n

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.