Veriler çarpıkken ortalama kullanılmalı mıdır?


14

Genellikle, uygulanan uygulamalı istatistik metinleri, ortalamanın örnek verilerdeki ve / veya eğri popülasyon dağılımları için kullanılır ve bu, veriler simetrik olmadığında medyanın tercih edileceği iddiası için bir gerekçe olarak kullanılır.

Örneğin:

Belirli bir veri kümesi için merkezi eğilimin en iyi ölçümü genellikle değerlerin dağıtılma şekline bağlıdır .... Veriler simetrik olmadığında, medyan genellikle merkezi eğilimin en iyi ölçüsüdür. Ortalama aşırı gözlemlere duyarlı olduğu için, dışarıdaki veri değerleri yönünde çekilir ve sonuç olarak aşırı şişirilmiş veya aşırı derecede sönmüş olabilir. "
—Pagano ve Gauvreau, (2000) Biyoistatistik İlkeleri , 2. Baskı. (P&G el altındaydı, BTW, onları tek başına söylemiyordu .)

Yazarlar "merkezi eğilim" i şöyle tanımlamaktadır: "Bir veri kümesinin en sık araştırılan özelliği, merkezi ya da gözlemlerin kümelenme eğilimi olduğu noktadır."

Bu, beni sadece medyanı, dönemi kullanmanın söyleminden daha az bir yol olarak vuruyor , çünkü sadece veri / dağılımların simetrik olduğu zaman ortalamanın kullanılması, sadece medyana eşit olduğunda ortalamayı kullanmakla aynı şeydir. Düzenleme: whuber haklı olarak ben medyan ile merkezî eğilimin güçlü önlemlerini karıştırıyorum işaret ediyor. Bu nedenle, uygulanan uygulamalı istatistiklerde aritmetik ortalamanın medyan ile spesifik çerçevesini tartıştığımı akılda tutmak önemlidir (burada, bir kenara, merkezi eğilimin diğer ölçümleri motive edilmemiştir).

Ortalamanın faydasını medyanın davranışından ne kadar ayrıldığına göre değerlendirmek yerine, bunları sadece iki farklı merkeziyet ölçüsü olarak anlamamalıyız? Diğer bir deyişle, çarpıklığa duyarlı olmak ortalamanın bir özelliğidir. Kişi, tıpkı "medyan iyi değil, çünkü çarpıklığa karşı büyük ölçüde duyarsız olduğu için, bu yüzden bunu sadece ortalamaya eşit olduğunda kullanın."

(Mod bu soruya oldukça mantıklı gelmiyor.)


3
Şahsen, okuyucuya sadece merkezi eğilim hakkında bazı bilgiler vermekle kalmayıp, aynı zamanda verilerin ne kadar çarpık olduğu hakkında bir fikir verecek olan hem ortalama hem de medyan önlemleri dahil etmeyi seviyorum.
bdeonovic

1
Bazı bağlam ve açıklamalar bu soruyu geliştirecektir. (1) Bu (varsayımsal) giriş metinleri hangi bağlamda ortalamanın tercih edileceğini ve hangi amaç için olduğunu iddia ediyor? (2) Tam olarak bu metinler "ortalamanın faydasını medyanın davranışından ne kadar ayrıldığına göre değerlendiriyorlar". Daha iyi anlayabilmemiz için bir örnek veya teklif verebilir misiniz?
whuber

2
Bir noktada yanlış yorumluyorsunuz: medyan, birkaç aşırı gözlem için sağlam olan tek istatistik değil. Bu nedenle ortalama, medyan ile herhangi bir karşılaştırma ile değil (genellikle) istenmeyen bir karakteristik temelinde belirtilir. Ama aynı zamanda endişenizi anlıyorum ve belki de asimetrinin örtülü olarak birleşmesi ve bu alıntıda meydana gelen aykırı değerlerin varlığı ile ilgilidir. Bu üzücü bir şekilde kötü düşünülmüş bir durumdur, çünkü aykırı değerlere sahip olmak bazen asimetri gerektirse de, tersi genellikle doğru değildir.
whuber

7
Buradaki okuyucular aşağıdaki ilgiyi bulacaktır: Ortalama çok hassassa, neden ilk etapta kullanıyorsunuz?
gung - Monica'yı eski

2
"Merkezi eğilim" için verilen tanım ışığında, ortalamanın neden eğriltme veya aykırı değerlerin varlığında yararlı bir önlem olmayacağı açıktır. Bu merkezi eğilim kavramını gerçekten tahmin etmek isteyip istemediğiniz başka bir mesele gibi görünüyor!
jsk

Yanıtlar:


16

Düz bir kural olarak tavsiyeye katılmıyorum. (Tüm kitaplar için yaygın değildir.)

Sorunlar daha incelikli.

Aslında popülasyon ortalaması hakkında çıkarım yapmak istiyorsanız, örnek ortalama en azından tarafsız bir tahmin edicidir ve bir takım başka avantajları vardır. Aslında, Gauss-Markov teoremine bakın - en iyi doğrusal tarafsızdır.

Değişkenleriniz aşırı derecede eğriyse, sorun 'doğrusal' ile birlikte gelir - bazı durumlarda tüm doğrusal tahminciler kötü olabilir, bu nedenle bunların en iyisi hala çekici olmayabilir, bu nedenle doğrusal olmayan ortalamanın bir tahmincisi daha iyi olabilir ancak dağıtım hakkında bir şeyler (veya hatta çok fazla) bilmek gerekir. Her zaman bu lükse sahip değiliz.

Bir popülasyon ortalamasıyla (" tipik bir yaş nedir? ") İlgili olarak çıkarım yapmakla ilgilenmiyorsanız , diyelim veya bir popülasyondan diğerine daha genel bir konum kayması olup olmadığı, herhangi bir konum açısından ifade edilebilir, hatta bir değişkenin stokunun bir diğerinden stokastik olarak daha büyük olduğunu gösteren bir testtir), daha sonra popülasyon ortalaması açısından gerekli olmadığı veya muhtemelen ters etki yaratacağı (son durumda).

Bu yüzden düşünüyorum:

  • gerçek soruların neler? Nüfus bu durumda sorulması gereken iyi bir şey mi demek?

  • duruma göre soruyu cevaplamanın en iyi yolu nedir (bu durumda çarpıklık)? Örnek kullanmak, ilgilendiğimiz soruları yanıtlamak için en iyi yaklaşım mıdır?

Doğrudan nüfus araçlarıyla ilgili sorularınız olmayabilir, ancak yine de örnek araçlar bu sorulara bakmak için iyi bir yoldur ... ya da tam tersi - soru nüfus araçlarıyla ilgili olabilir, ancak örnek araçlar bu soruya cevap ver.


14

Gerçek hayatta, bulmaya çalıştığımız şeye dayalı bir merkezi eğilim ölçüsü seçmeliyiz; ve evet, bazen mod kullanmak için doğru olan şeydir. Bazen Winsorized veya kesilmiş ortalama. Bazen geometrik veya harmonik ortalama. Bazen merkezi eğilimin iyi bir ölçüsü yoktur .

Giriş kitapları kötü yazılmış, uygulanacak yemek kitabı kuralları olduğunu öğretiyorlar.

Gelir al. Bu genellikle çok çarpıktır ve bazen aykırı değerlere sahiptir; elbette, genellikle "medyan gelir" bildirildiğini görüyoruz. Ancak bazen aykırı değerler ve çarpıklık önemlidir. Bağlama bağlıdır ve düşünce gerektirir.

Bunun hakkında daha fazla yazdım


2
Peter, yazının bağlantısı için çok teşekkür ederim. Giriş metinlerinin orada sağladığınız kadar dikkatli düşünmek için gerekli olan 1 ila 2 sayfa alan almasını diliyorum.
Alexis

4
Bir tane yazmadım ama tanıtım metinlerinin küçük bir savunmasını eklemek istiyorum. Deneyimli profesyonellerin bu şekilde tanıyacağı tamamen incelikli bir bakış açısı vermeye çalışan herhangi bir giriş metni, neredeyse tüm hedeflenen alıcılar tarafından alevlendirilecektir; hatta yayınlanmayacaktı bile.
Nick Cox

5
Esaslı bir yorum: değerler, toplamlar fiziksel anlamda anlamlı olacak şekilde toplanırsa, ortalama, bireysel değerlerin dağılımından bağımsız olarak doğal bir özettir.
Nick Cox

3
@NickCox Bence tanıtım metinleri onlardan çok daha iyi olabilir. Ortalama ve medyan için bu bile matematiksel bir argüman değil - somut bir argüman. Giriş metinleri, onları okuyan kişiye veri analizi yapmak için gerçekten nitelikli olmadıklarını söylemelidir.
Peter Flom - Monica'yı eski durumuna döndürün

2
@jsk. Ah tamam. Bence istatistiklerde açıkça söylenmeleri gerekiyor çünkü birçok insan veri analizinde bir dersten sonra hazır olduklarını düşünüyor; aslında, birçok alanda (psikoloji, sosyoloji, tıp, vb.) insanların sadece 1, 2 veya bazen 3 dersten sonra veri analizi yapmaları beklenmektedir. Örneğin, doktora programlarında tez yazmaları beklenir. Diğer alanlarda neden daha açık? Emin değilim.
Peter Flom - Monica'yı eski durumuna döndürün

6

Veriler çarpık olsa bile (örneğin, klinik araştırmanın yanında hesaplanan sağlık maliyetleri, az sayıda hastanın kayıttan hemen sonra öldükleri için sıfır maliyete ulaştığı ve az sayıda hasta, araştırılan belirli bir sağlık programının yan etkileri nedeniyle tonlarca maliyet tahakkuk ettirdi ), ortalama en az bir pratik nedenden ötürü medyan tercih edilebilir: hasta sayısının ortalama maliyetinin çarpılması, sağlık bakımı karar vericilerine incelenen sağlık teknolojisinin bütçe üzerindeki etkisini verir.


Echoing Carlo'nun yorumu: Bir nüfus toplamıyla ilgileniyorsanız (örneğin, denetim örneklemesi ile), ortalama dönemle ilgilenirsiniz. Dağılımın ne kadar çarpık veya dışa eğilimli olduğu fark etmezse, sadece bununla uğraşmanız gerekir. Aykırı değerleri kaldıramaz, kırpamaz, başka türlü kaldıramaz veya dönüşümü kaydedemezsiniz. Tabakalaşma çok yardımcı olabilir; aşırı aykırı değerler söz konusu olduğunda, bunlar kendilerine tabaka olarak yapılmalıdır.
Peter Westfall

3

Sorunun yanı sıra şimdiye kadar verilen cevapların eksikliğinin, giriş istatistik kitaplarında ortalamaya karşı medyan tartışmasının genellikle bir dağılımın sayısal olarak nasıl özetleneceği hakkında bir bölümde erken gerçekleştiğini düşünüyorum. Çıkarımsal istatistiklerin aksine, bu genellikle verilerin grafiksel olarak aksine sayısal olarak dağılımı hakkında bilgi aktarmanın yararlı bir yolu olacak açıklayıcı istatistikler üretmekle ilgilidir. Bunun ortaya çıktığı bağlamlar, genellikle veri kümenizdeki tüm değişkenlerin grafik özetleri için yer bulunmayan bir raporun veya dergi makalesinin açıklayıcı istatistikler bölümüdür. Dağılım çarpıksa, bu bağlamda ortalamanın ortalamasının seçilmesi mantıklı görünmektedir. Dağılım aykırı değerlerle simetrik ise,


1
Betimsel ve çıkarımsal istatistikler hakkındaki görüşünüze değer. Ama etkili bir şekilde diyorsunuz (açıklayıcı istatistikler için) "ortalamayı sadece ortanca ile aynı olduğunda kullanın." Eğer dağılım çarpıksa, o zaman medyan kişi başına kavramı temsil etme konusunda zayıf bir iş çıkar , değil mi? Peki "medyanı sadece ortalamaya eşit olduğunda kullan?" Bu tıpkı keyfi bir şeydir ve dikkati bu önlemlerin (anlamlarını öğrenen insanlar için) temel anlamından uzaklaştırmaktadır.
Alexis

1
Amaç kişi başına kavramı temsil etmek değil mi? Kim söylüyor? Neden bunun öneri olmadığını varsayalım?
Alexis

1
OP'den

1
Bu örnekte çıkarımsal veya açıklayıcı istatistikler yapmanın önemli olmadığını görmüyorum. Merkezi eğilimin uygun tanımlayıcı ölçüsü medyan ise, medyan hakkında çıkarımlar yapılmalıdır; ortalama, o zaman ortalama. Hiçbir tanımlayıcı önlem mantıklı değilse, o zaman hiçbir çıkarımsal önlem de anlamlı olmayacaktır.
Peter Flom - Monica'yı eski durumuna döndürün

1
@PeterFlom Nihai hedefin çıkarım olmadığı durumlarda ne olur? Açıklayıcı bir istatistiğin uygunluğunun tamamen istatistiği üretme nedenine bağlı olduğuna katılıyorum. "Hiçbir tanımlayıcı önlemin mantıklı olmadığı" düşüncesi, tanımlayıcı bir istatistiğin doğası gereği anlamlı olamayacağı anlamına gelmektedir. Hemen hemen her durumda, medyanın, tanımın dağılımının merkezinin bir ölçüsü olarak mantıklı olduğunu iddia ediyorum. Başka amaçlar için anlamlı olup olmadığı başka bir sorudur.
jsk
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.