Birden fazla "medyan" formül var mı?


16

Çalışmamda, bireyler bir veri kümesinin "ortalama" değerine başvurduğunda, genellikle aritmetik ortalamaya (yani "ortalama" veya "beklenen değer") atıfta bulunurlar. Ben sağlamışsa geometrik ortalama, insanlar muhtemelen "demek" tanımı önceden bilindiği gibi ben art niyetli ya da olmayan yararlı oluyorum düşünürdüm.

Bir veri kümesinin "medyan" birden çok tanım olup olmadığını belirlemek için çalışıyorum. Örneğin, bir meslektaş tarafından, eşit sayıda öğeye sahip bir veri kümesinin medyanını bulmak için sağlanan tanımlardan biri:

Algoritma 'A'

  • Eleman sayısını ikiye bölün, aşağı yuvarlayın.
  • Bu değer medyanın indeksidir.
  • yani Aşağıdaki set için medyan olur 5.
  • [4, 5, 6, 7]

Yuvarlama yönü biraz keyfi gibi görünse de bu mantıklı görünüyor.

Algoritma 'B'

Her durumda, başka bir meslektaş, kendi istatistik ders kitabında yer alan ayrı bir algoritma önermiştir (adını ve yazarını almanız gerekir):

  • Eleman sayısını 2'ye bölün ve yuvarlatılmış ve aşağı yuvarlanmış tamsayıların bir kopyasını saklayın. Onları adlandırın n_love n_hi.
  • En elemanların aritmetik ortalamasını alın n_love n_hi.
  • yani Aşağıdaki set için medyan olur (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Bununla birlikte, 5.5bu durumda medyan değer aslında orijinal veri kümesinde olmadığından, bu yanlış görünüyor . Bazı test kodlarında 'B' için 'A' algoritmasını değiştirdiğimizde, korkunç bir şekilde kırıldı (beklediğimiz gibi).

Soru

Bir veri kümesinin medyanını hesaplamak için bu iki yaklaşım için resmi bir "isim" var mı? yani "orta-orta-elemanlar-ve-yeni-veri-ortalamasının ortalamasına karşı" iki medyandan daha az "mı?


16
"A" algoritmasının medyan olduğunu hiç görmedim. Merkezi veri eğilimine ilişkin açıklayıcı bir istatistiğin verilerin kendileri arasında olmaması bir sorun olmamalıdır: sonuçta, çoğu araç da verilerde değildir. Medyanın sahip olmasını istediğimiz daha temel bir özellik, veri dizisi tersine çevrildiğinde değişmemesidir, çünkü en küçükten en büyüğe veya en büyüğünden en küçüğe veri siparişi keyfi bir zevk meselesidir. Bu nedenle yazarların çoğu medyanı "B" algoritmasında tanımlamaktadırlar, çünkü bu mümkün olan en basit düzen değişmez prosedürüdür.
whuber

3
@whuber 'A' algoritmasına bazen düşük medyan denir . Elbette buna karşılık gelen bir Yüksek medyan da vardır. Tipik olarak medyan, ikisinin ortalamasıdır (medyanın hesaplandığı setten bir eleman olabilir veya olmayabilir).
user603

8
Düzenli bir örneklemdeki (1, 2, 3, 4, 5, 6 gibi 3 ve 4 gibi) iki merkezi değerin komedyen olarak kabul edilmesi gerektiği yorumunu tekrarlamak için iyi bir zaman ve yer (SM Stigler, R.Koenker ve şüphesiz diğerleri tarafından bağımsız olarak alıntılanmıştır).
Nick Cox

3
Her iki algoritmada da verileri sıralamanın önemli adımı eksik değil mi?
Emil

3
Her zaman veri kümesinin bir unsuru olmak için "medyan" a ihtiyacınız varsa, aslında bir medoid arıyor olabilirsiniz .
Ilmari Karonen

Yanıtlar:


23

TL; DR - Örnek medyanların farklı tahmincilerine belirli isimlerin verildiğinin farkında değilim. Bazı verilerden örnek istatistikleri tahmin etme yöntemleri oldukça telaşlı ve farklı kaynaklar farklı tanımlar veriyor.

Hogg, McKean ve Craig'in Matematiksel İstatistiklere Girişinde, yazarlar rastgele örneklerin medyanlarının bir tanımını sağlarlar , ancak sadece tek sayıda örnek olması durumunda! Yazarlar

nY(n+1)/2

Yii

n

B algoritması, verinin yarısının değerin üzerine, verinin yarısının da değerin altına düşme özelliğine sahiptir. Rastgele bir değişkenin medyanının tanımı ışığında , bu hoş görünüyor.


Belirli bir tahmincinin birim testlerini ihlal edip etmediği birim testlerinin bir özelliğidir - başka bir tahminciyi değiştirdiğinizde belirli bir tahminciye karşı yazılmış birim testleri mutlaka yapılmayacaktır. İdeal durumda, birim testleri, tanımlarla ilgili bir doktriner argümanı nedeniyle değil, kuruluşunuzun kritik ihtiyaçlarını yansıttığı için seçilmiştir.


2
(+1) Şunu da ekleyebiliriz (1) Değerler ağırlıklarla geldiğinde, prensipte ve pratikte medyanların tanımı da bunu kapsamalıdır. (Şimdiye kadar verilen cevaplarda, tüm ağırlıklar eşittir, bu nedenle önemsizdir.) Ağırlıkların toplamında doğrusal enterpolasyon en basit olsa da, diğer enterpolasyon türlerinin anlamlı olabileceği durumlar vardır. (2) Medyanın daha titiz tanımları genellikle, bir yerlerde olasılık ani artışları olanlar da dahil olmak üzere, hem ayrık hem de sürekli ve hibrit dağılımları kapsamaktadır.
Nick Cox

25

@Sycorax ne diyor.

Nitekim şaşırtıcı bir şekilde genel niceliklerin, özellikle de medyanların birçok tanımı vardır. Hyndman & Fan (1996, Amerikan İstatistikçi ) AFAIK, hala kapsamlı bir genel bakış sunuyor. Farklı türlerin resmi isimleri yoktur. Hangi türü kullandığınız konusunda net olmanız gerekebilir. (Genellikle gerçekçi boyutlardaki veri kümelerinde büyük bir fark yaratmaz.)

Veri setinde ortanca olarak bulunmayan bir değerin, örneğin 5.5 için ortanca olarak (4, 5, 6, 7) bulunmasının yaygın olarak kabul edildiğini unutmayın. Bu R için varsayılan davranıştır:

> median(4:7)
[1] 5.5

R'ın median()varsayılan kullanımları ile Hyndman & Fan'in sınıflandırmasının 7 yazın.


6
+1 "Genellikle gerçekçi boyutlardaki veri kümelerinde büyük bir fark yaratmaz." Her zamanki yerine "malzemeyi bir fark yaratırsa, muhtemelen daha fazla veriye ihtiyacınız olduğunu" çalarım. :)
Jason

1
0, 1 (diyelim) ve yaklaşık eşit sayıda 0s ve 1s (ortalama 0,5'e yakın) olan bir ikili değişkeniniz varsa, büyük örnek boyutu bildirilen medyanın 0, 0,5 ve 1 arasında ileri geri dönmesini durdurmayabilir. Mosteller ve Tukey ( Veri Analizi ve Regresyon 1977), medyanın özellikle iyi davranamayacağı durumlar olarak güçlü bimodal ve neredeyse simetrik dağılımları belirtmektedir.
Nick Cox

3

R madfonksiyonunda, A algoritmanızı tanımlamak için "lo-medyan" terimlerini, bunun yerine yuvarlamayı tanımlamak için "hi-medyan" terimlerini ve B algoritmanızı tanımlamak için sadece "medyan" terimlerini kullanır (diğerlerinin belirttiği gibi en yaygın tanım).

İlginçtir ki, R'nin median()işlevi üzerinde böyle bir seçenek yoktur ! (Ama R'ın quantile()sahip typeince kontrolü için.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.