Sıra değişkeninin ortalamasını hesapla


20

Bir sıra değişkeninin ortalamasını hesaplamanın uygun olmadığı birkaç yerde okudum. Neden uygunsuz olabileceğine dair bir sezgi almaya çalışıyorum. Bence bunun nedeni, genel olarak, bir sıra değişkeninin normal olarak dağılmamasıdır ve bu nedenle ortalamanın hesaplanması yanlış bir temsil verecektir. Bir sıralı değişkenin ortalamasının hesaplanmasının neden uygunsuz olabileceğine dair daha ayrıntılı bir mantık verebilir mi?


8
Bir ortalama hesaplamak için, önce bir miktara ihtiyacınız vardır. Bir toplamın anlamlı olması için 4 + 2'nin 3 + 3 ile aynı olması gerekir; aynı şekilde 4-3 = 3-2 = 2-1'e ihtiyacınız var. Sıralı verilerle - kategorileri "1", "2", "3", "4" olarak etiketlenmiş olsa bile - bu (oldukça açık bir şekilde) durum böyle değildir.
Glen_b -Monica

Ve medyan neden aritmetik ortalamadan daha uygun olsun?

Yanıtlar:


24

Kısa bir cevap, bunun tartışmalı olduğu. Bahsettiğiniz tavsiyenin aksine, birçok alandaki insanlar sıralı ölçeklerden yararlanır ve çoğu zaman mutlu olurlar, bu da istediklerini yapmak anlamına gelir. Birçok eğitim sisteminde not ortalaması veya eşdeğeri bir örnektir.

Bununla birlikte, normal olarak dağıtılmayan sıralı veriler geçerli bir neden değildir, çünkü ortalama

  • normal olmayan dağılımlar için yaygın olarak kullanılır

  • bazı patolojik durumlar hariç, normal olmayan birçok dağılım için matematiksel olarak iyi tanımlanmıştır.

Veriler kesinlikle normal olarak dağıtılmamışsa, ortalamayı pratikte kullanmak iyi bir fikir olmayabilir, ancak bu farklıdır.

Ortalamayı sıralı verilerle kullanmamanın daha güçlü bir nedeni, değerinin kodlama kurallarına bağlı olmasıdır. 1, 2, 3, 4 gibi sayısal kodlar genellikle basitlik veya kolaylık açısından seçilir, ancak prensipte, ilgili tanımlanmış bir sıraya karşılık geldiği ölçüde 1, 23, 456, 7890 olabilir. Her iki durumda da ortalamayı almak, bu sözleşmeleri tam anlamıyla almayı içerir (yani, sayılar keyfi değil, haklıymış gibi) ve bunu yapmak için kesin bir neden yoktur. Alma araçlarını haklı çıkarmak için değerler arasındaki eşit farklılıkların tam anlamıyla alınabileceği bir aralık ölçeğine ihtiyacınız vardır. Temel argüman olarak kabul ediyorum, ancak daha önce de belirtildiği gibi, insanlar bunu genellikle kasıtlı olarak ve kasıtlı olarak görmezden gelirler, çünkü ölçüm teorisyenleri ne derse desin yararlı buluyorlar.

İşte ek bir örnek. Çoğu zaman insanlar "kesinlikle katılmıyorum" ... "kesinlikle katılıyorum" ve (kısmen yazılımın ne istediğine bağlı olarak) araştırmacılar 1 .. 5 veya 0 .. 4 ya da istediklerini kodlamak ya da bunu ilan etmek isteyin düzenli bir faktör olarak (veya yazılımın kullandığı terim). Burada kodlama keyfi ve soruyu cevaplayan insanlardan gizlidir.

Ancak çoğu zaman insanlara 1 ila 5 arasında bir ölçekte de sorulur (bir şeyi nasıl derecelendirirsiniz)? Bol örnek: web siteleri, spor, diğer yarışmalar ve gerçekten de eğitim. Burada insanlara bir ölçek gösteriliyor ve bunu kullanmaları isteniyor. Tamsayı olmayanların mantıklı olduğu yaygın olarak anlaşılmaktadır, ancak tamsayıları bir kural olarak kullanmanıza izin verilmektedir. Bu sıra ölçeği mi? Bazıları evet, bazıları hayır der. Aksi takdirde, sorunun bir kısmı sıra ölçeğinin kendisinin bulanık veya tartışmalı bir alan olmasıdır.

Akademik çalışma notlarını tekrar düşünün, örneğin E'den A'ya. Genellikle bu tür notlar da sayısal olarak ele alınır, 1 ila 5 olarak söylenir ve rutin olarak insanlar öğrenciler, dersler, okullar vb. İçin ortalamaları hesaplar ve bu tür verilerin daha ayrıntılı analizlerini yapar. Sayısal puanlarla yapılan herhangi bir eşlemenin düzeni koruduğu sürece keyfi ancak kabul edilebilir olduğu doğru olmakla birlikte, yine de uygulamada not alan ve alan insanlar puanların sayısal eşdeğerlerine sahip olduğunu ve notların ortalaması alınacağını bilirler .

Araçların kullanımının pragmatik bir nedeni, medyanların ve modların genellikle verilerdeki bilgilerin yetersiz özetleri olmasıdır. 1 ila 5 arasındaki noktaları kabul etmek ve kesinlikle kabul etmek için kesinlikle katılmamanız gereken bir ölçeğiniz olduğunu varsayalım. Şimdi 1, 1, 2, 2, 2 ve diğer 1, 2, 2, 4, 5 kodlu bir örneği hayal edin. sıradan bir ölçek olduğu için medyan ve modun sadece haklı özetler olduğunu düşünüyorsanız elleriniz. Toplamların iyi tanımlanıp tanımlanmadığına bakılmaksızın ortalamayı da yararlı bulursanız, şimdi ellerinizi kaldırın.

Doğal olarak, eğer kodlar 1 ila 5'in kareleri veya küpleri ise, aşırı duyarlı bir özet olurdu, ve bu istediğiniz şey olmayabilir. (Amacınız yüksek hızlı uçları hızlı bir şekilde tanımlamaksa, tam olarak istediğiniz şey olabilir!) Ancak, ardışık tamsayı kodlarıyla geleneksel kodlamanın pratik bir seçim olmasının nedeni budur, çünkü pratikte genellikle iyi çalışır. Bu, ölçüm teorisyenleri ile herhangi bir ağırlık taşıyan bir tartışma değildir, ne de öyle olmalıdır, ancak veri analistleri bilgi açısından zengin özetler üretmekle ilgilenmelidir.

Şunu söyleyen herkese katılıyorum: sınıf frekanslarının tüm dağılımını kullanın, ancak mesele bu değil.


1
Büyük cevap ve pragmatizm önemlidir, ancak bir dikkat notu eklerim. Sadece resmi olarak kurulmuş yöntemleri kullanmak için iyi bir neden, kesinlik ve c tahminlerine erişebilmenizdir. Örneğin, 4.53 ve 4.34 gibi iki GPA'mız varsa, birinin diğerinden "önemli ölçüde" daha iyi olup olmadığını bilmek isteyebiliriz. Ancak notların ortalamasındaki formalite eksikliğinden dolayı, güven aralıkları & c.
Stephen McAteer

1
@StephenMcAteer Tipik bir giriş metninde veya derste öğretilen yöntemler açısından amacınızı görüyorum. Ancak bu arzu olsaydı, önyükleme neredeyse 40 yıldır güven aralıklarına izin veren bir teknoloji sağladı.
Nick Cox

3

Örneğin, kesinlikle katılmıyorum için 1, katılmıyorum için 2, katılıyorum için 3 ve katılıyorum için 4 olmak üzere sıralı değerler aldığımızı varsayalım. Eğer dört kişi 1,2,3 ve 4 yanıtlarını verirse, bunun anlamı ne olurdu? (1 + 2 + 3 + 4) /4=2.50.

Dört kişinin ortalama yanıtı "katılmıyorum veya katılıyorum" olduğunda, bu nasıl yorumlanmalıdır? Bu yüzden sıralı veriler için ortalama kullanmamalıyız.


3
Şeytan'ın savunucusunu biraz oynamak, bu örnekte, 2.5'i 2, "katılmıyorum" ve 3, "katılıyorum" arasında yarı yarıya olarak değerlendirirdim. "Kesinlikle katılmıyorum" ya da "kesinlikle katılıyorum" ve "katılmıyorum" - "katılıyorum" şeklinde bir ortalama olarak mantıklıdır.
TooTone

1
Bu bağlamda 2.5 ortalama katılıyorum bana hala mantıklı geliyor - katılmıyorum ve katılıyorum ya da başka bir deyişle tarafsız.
luciano

3
Bence Azeem'in daha güçlü bir örneğe ihtiyacı var. Aynı temelde aile başına ortalama 1, 2, 3, 4 çocuk olarak 2,5'e itiraz edebilirsiniz, bu tanımlanmış değerlerden biri olmadığı için nasıl yorumlanır. Bu farklı sorunları gündeme getiriyor.
Nick Cox

2
Bence cevabını güçlendirebilirsin ve bunu yapmanı teşvik ederim. “ortalama, tanımlanmamış bir değer olabilir”, burada mantıksal veya psikolojik olarak güçlü bir argüman değildir ve eşit farklılıkların gerçekten eşit farklar anlamına gelip gelmediğine dair daha derin bir konuya odaklanmaz.
Nick Cox

1
Bunu nasıl daha net hale getirebileceğimi bilmiyorum, ancak (örneğin) "0-4", "5-19", "20-114", bu ölçümler için sadece bir doğal düzen olduğu için (sıralı) sipariş edildi (tersine çevirme). Onlara başka şeyler de demek istiyorsan, benim için sorun değil.
Nick Cox

2

@Azeem ile tamamen katılıyorum. Ama bu noktayı eve götürmek için biraz daha ayrıntıya gireyim.

Diyelim ki ölçeğiniz 1'den 4'e kadar değişen @Azeem örneğinde olduğu gibi sıralı verileriniz var. Aşağıdaki sonuçları aldığınızı düşünün:

  • Kişi A dedi 4
  • Kişi B dedi ki 3
  • Kişi C dedi 1
  • Kişi D dedi 2

Sonuçları yorumlamak istediğinizde, bir şeyleri şu ölçüde sonuçlandırabilirsiniz:

  • Kişi A Dondurmayı Kişi B'den daha fazla beğendi
  • Kişi D Dondurmayı Kişi C'den daha fazla beğendi

Ancak, derecelendirmeler arasındaki aralıklar hakkında hiçbir şey bilmiyorsunuz. 1 ile 2 arasındaki fark, 3 ile 4 arasındaki farkla aynı mıdır? 4 derecesi, kişinin Dondurmayı 1 olarak derecelendiren kişiden 4 kat daha fazla sevdiği anlamına mı geliyor? Ve böylece ... Aritmetik ortalamayı hesapladığınızda, sayıları aralarındaki farklar eşitmiş gibi ele alırsınız. Ancak bu sıralı verilerle oldukça güçlü bir varsayımdır ve bunu haklı çıkarmanız gerekir.


Yukarıdaki cevaba yapılan referansı düzenledim. Cevaplar düzeni değiştirebilir ve aslında yukarıdaki cevap şu anda aşağıdadır ve bu değişebilir. Yani pozisyonlara değil posterlere çapraz referans verin.
Nick Cox

0

Aritmetik ortalamanın sıralı ölçek verilerinde gerçekten doğrulanamayacağı kavramına katılıyorum. Ortalamayı hesaplamak yerine, bu tür durumlarda sonuçlarımızı daha anlamlı yorumlayabilmemiz için mod veya medyan kullanabiliriz.


Bu, neden uygunsuz olabileceği sorusunu ele almaz .
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.