Çalışmamda, bireyler bir veri kümesinin "ortalama" değerine başvurduğunda, genellikle aritmetik ortalamaya (yani "ortalama" veya "beklenen değer") atıfta bulunurlar. Ben sağlamışsa geometrik ortalama, insanlar muhtemelen "demek" tanımı önceden bilindiği gibi ben art niyetli ya da olmayan yararlı oluyorum düşünürdüm.
Bir veri kümesinin "medyan" birden çok tanım olup olmadığını belirlemek için çalışıyorum. Örneğin, bir meslektaş tarafından, eşit sayıda öğeye sahip bir veri kümesinin medyanını bulmak için sağlanan tanımlardan biri:
Algoritma 'A'
- Eleman sayısını ikiye bölün, aşağı yuvarlayın.
- Bu değer medyanın indeksidir.
- yani Aşağıdaki set için medyan olur
5
. [4, 5, 6, 7]
Yuvarlama yönü biraz keyfi gibi görünse de bu mantıklı görünüyor.
Algoritma 'B'
Her durumda, başka bir meslektaş, kendi istatistik ders kitabında yer alan ayrı bir algoritma önermiştir (adını ve yazarını almanız gerekir):
- Eleman sayısını 2'ye bölün ve yuvarlatılmış ve aşağı yuvarlanmış tamsayıların bir kopyasını saklayın. Onları adlandırın
n_lo
ven_hi
. - En elemanların aritmetik ortalamasını alın
n_lo
ven_hi
. - yani Aşağıdaki set için medyan olur
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Bununla birlikte, 5.5
bu durumda medyan değer aslında orijinal veri kümesinde olmadığından, bu yanlış görünüyor . Bazı test kodlarında 'B' için 'A' algoritmasını değiştirdiğimizde, korkunç bir şekilde kırıldı (beklediğimiz gibi).
Soru
Bir veri kümesinin medyanını hesaplamak için bu iki yaklaşım için resmi bir "isim" var mı? yani "orta-orta-elemanlar-ve-yeni-veri-ortalamasının ortalamasına karşı" iki medyandan daha az "mı?