Ortanca yaş neden ortalama yaştan daha iyidir?


41

alt metin

alt metin

Açıkçası medyan , çağlar söz konusu olduğunda seçim istatistiği gibi görünüyor.

Aritmetik ortalamanın neden daha kötü bir istatistik olabileceğini kendi kendime açıklayamıyorum . Neden bu kadar?

Aslında burada yayınlanan çünkü bu sitenin var olduğunu bilmiyordum.


4
Diğer sitede zaten makul bir cevabınız var gibi görünüyor?
Shane

1
@Shane: Belki de farklı siteler farklı bakış açılarından farklı cevaplar alma potansiyeline sahip?
whuber

Yanıtlar:


42

İstatistikler bence bu soruya iyi bir cevap vermiyor. Örneğin, ölüm ölümleriyle ilgili bir ortalama söz konusu olabilir, ancak yaş tahmin edebileceğiniz kadar kolay değildir. Yaşlı insanlar, okuma yazma bilmeyen insanlar ve bazı üçüncü dünya ülkelerindeki insanlar, yaşlarını 5 veya 10 katına çıkarma eğilimindedir.

Ortanca, bu tür hatalara ortalanmadan daha dirençlidir. Dahası, ortanca yaş genellikle 20-40 yaş arasındadır, ancak insanlar 100 yaş ve üzerinde yaşayabilir (modern ülke nüfusunun artan ve göze çarpan bir oranı şimdi 100'ün ötesinde yaşıyor). Bu yaştaki insanlar, medyan üzerindeki etkilerini, gençlere oranla ortalamanın üzerinde 1,5 ila 4 katına sahiptirler. Bu nedenle, medyan, bir ülkenin yaş dağılımına ilişkin olarak biraz daha güncel bir istatistiktir ve ölüm oranlarından ve yaşam beklentisinden ortalamadan biraz daha bağımsızdır.

Son olarak, ortanca bize yaş dağılımının kendisinin nasıl göründüğünün biraz daha iyi bir resmini verir: 35 ortancasını gördüğünüzde, örneğin, popülasyonun yarısının 35 yaşından büyük olduğunu ve doğum oranları hakkında bazı şeyleri çıkartabileceğinizi biliyorsunuz, ebeveynlerin yaşları vb. ancak ortalama 35 ise, o kadarını söyleyemezsiniz, çünkü bu 35, örneğin 70 yaşında büyük bir nüfus artışından etkilenebilir, ya da belki eski bir savaş ya da salgın nedeniyle bazı yaş aralığındaki bir nüfus boşluğundan etkilenebilir.

Bu nedenle, demografik, istatistiki olmayan nedenlerden dolayı, bir medyan, göreceli olarak büyük nüfusların yaşlarını özetlemek için bir çok değerlik değerin rolüne daha layık görünmektedir.


1
Sanırım "Ortanca, bu tür hatalara ortalanmadan daha dirençli" demek istedin. Yine de yorumlarınıza katılıyorum ve ABD nüfus sayımının temelde aynı sebeplerden ötürü resmi raporlardaki (sadece yaş için) birçok kategori için medyanı rapor ettiğini düşünüyorum. Gelir belki de bu noktaları göstermek için yaştan daha iyi bir örnektir.
Andy W

Medyanı ortalamanın tercihine ilişkin bir değer beyanı için - ortalamanın aykırı değerlere / çarpık dağılımlara karşı duyarlı olduğu bir gerçeği değiştirdiniz. Aslında, medyanın tercih edilmeyeceğini, medyan olmadığını (medyanın yalnızca simetrik dağılımlarda, yani ortalama ve medyan eşit olduğunda kullanması gerektiğini söyleyenler gibi) iddia ettiniz.
Alexis

1
@Alexis Ben eleştirinizi takip etmiyorum. Ayrıntılı misiniz? Ne de olsa, bu cevap "bir gerçek" ten çok daha fazlasını sağlar: sonuçlarının analizi ile birlikte bunlardan çok azını içerir. Ve özellikle hangi "değer beyanı" na başvuruyorsunuz?
whuber

Benim endişem, ortalamanın ve medyanın gerçek özelliklerinin (örneğin, eskilerin aykırı değerlere karşı hassastır, "Bu yaştaki insanlar, medyan üzerindeki etkilerini medyan üzerinde çok genç insanlara kıyasla 1,5 ila 4 kat daha fazladır"). çevrilmiş hale değerlere bunların değeri hakkında, yani "medyan bize yaş dağılımı kendisi gibi göründüğünü biraz daha iyi bir görüntü verir". Birincisi bir gerçektir, daha sonra bu gerçeğin bir değerlendirmesi. Benim endişem, ikisi arasındaki geçiş. Daha fazla: stats.stackexchange.com/questions/96371/…
Alexis

1
@Alexis Lütfen bu sorunun genel olarak ortalamanın ya da medyanın kullanımı ile ilgili olmadığını, ancak yaş dağılımlarını değerlendirmedeki faydaları olduğunu unutmayın . Lütfen en başından beri cevabımın derde deva olmadığını kabul ettiğini kabul ediyorum: ortalamanın belirli amaçlar için yararlı ve uygun olduğunu. Beni suçladığın günahı işlediğimi sanmıyorum, “daha ​​iyi” in belirsiz uygulaması: Medyan ve ortalamanın bu bağlamda nasıl farklılaştığını dikkatlice belirledim . Eğer vasıtalara ilişkin kamçılamak için bir sorun var gibi bana geliyor vs medyan, ancak bunu yapmak için bir yer değildir.
whuber

16

John kardeş sitesinde size iyi bir cevap verdi.

Açıkça bahsetmediği bir yön sağlamlıktır: merkezi bir konum ölçüsü olarak ortanca , daha yüksek bir kırılma noktasına sahip olduğundan (% 50) ortalamanın üzerinde daha iyi performans gösterirken, ortalamanın 0'dan çok düşük (ort. ).

Sezgisel olarak, bireysel kötü gözlemlerin medyanı eğriltmediği anlamına gelir, oysa ki ortalama için yaptıklarını.


9
Dağılma, tüm nüfusun tanımlayıcı istatistiği için bir sorun değildir.
whuber

12

İşte cevabım ilk önce math.stackexchange'e gönderildi:

Medyan, “demek istediğini” söylediğinde aslında birçok insanın aklında olan şeydir. Medyanı yorumlamak daha kolaydır: popülasyonun yarısı bu yaşın üzerinde ve yarısı aşağıdadır. Ortalama biraz daha incedir.

İnsanlar simetri arar ve bazen orada olmadığı zaman simetri dayatır. Bir popülasyondaki yaş dağılımı simetrik olmaktan uzaktır, bu nedenle ortalama yanıltıcı olabilir. Yaş dağılımları bir piramit gibidir. Çok sayıda çocuk, çok yaşlı değil. (Ya da en azından bir şekilde sabit bir durumdaydı. ABD'de, İkinci Dünya Savaşı sonrası bebek patlaması kuşağı yaşlandıkça bu dağılımı çarpıttı. piramidin tepesi geçmiştekinden daha genişti.)

Asimetrik bir dağılımla, medyanı bildirmek daha iyi olabilir çünkü simetrik bir istatistiktir. Örnekleme dağılımı olmasa bile medyan simetriktir.


Medyan hangi anlamda "simetrik" bir istatistiktir? Dağılımların, medyanları hakkında (ya da onların araçları hakkında) simetrik olarak dağılma eğiliminde olduğu kesin değildir. "Medyanın nüfusu ikiye böldüğü" anlamına gelen ( medyanı tanımlayan ) başka bir yorumda yazdığınızı kastediyorsanız , argümanınız dairesel bir ses çıkarır: medyan medyandır, çünkü medyan medyandır!
whuber

7

Balta neden baltadan daha iyidir?

Bu, sorunuza benzer. Sadece farklı şeyler yapıyorlar ve yapıyorlar. Eğer birileri medyanlardan bahsediyorsa, iletmeye çalıştıkları hikaye, verilere uygulamaya çalıştıkları model araçlardan farklıdır.


4

Somut bir örnek için, Kongo (DRC) ve Japonya için ortalama yaşları düşünün. Biri iç savaştan harap olmuş, diğeri ise yaşlanan bir nüfusla iyi gelişmiştir. Ortalama bir elmanın elmadan karşılaştırmasına kadar ilginç değildir. Öte yandan, medyan merkezi bir eğilim ölçüsü olarak bilgilendirici olabilir, çünkü tanım gereği yarı yarıya yarı yarıya yukarıdadır. Nüfus Piramidi hakkındaki wikipedia makalesi aydınlatıcı olabilir (gençlik şişkinliği, yaşlanan nüfus hakkındaki bölümlere bakınız).


3

Amerika Birleşik Devletleri'ndeki Kamu Sağlığı Veri depoları, HIPAA düzenlemelerinin kişisel gizlilik nedenleriyle kasıtlı olarak körleştirilmesi ve verilerinin maskelenmesi konusundaki etkisine bağlı olarak, yıllarca beş yıllık aralıklarla bir AGE'ye doğru ilerlemektedir.

Geçmişte olanlara karşı bu zorluk göz önüne alındığında (HIPAA'dan önce), doğum tarihi ile ölüm tarihi arasındaki farka dayanan oldukça ölçek bir ölçü veri unsuru seviyesi olarak, AGE'yi olabilecek bir ölçek değişkeni olarak yeniden düşünmemiz gerekebilir. parametrik olarak hiç bir şekilde halk sağlığı veri setlerinde, AGE'yi parametrik olmayan bir şekilde sıralı bir ölçü olarak tanımlayan modeller lehine tanımlanmıştır. Bunun biyomedikal bilişim topluluğundaki birçok gruba "en üstte" görünebileceğini biliyorum, ancak bu fikrin yukarıdaki açıklamalarda açıklandığı gibi "yorumlama" açısından bazı yararları olabilir.

Parametrik olmayan yaklaşımlar için mevcut olan tüm analitik güç nedir? Evet, neredeyse hepimizin evrensel olarak GLM (genel doğrusal model) tekniklerini, AGE'nin yaptığı gibi davranan dağılımlarda bize sunan bir değişkene uygulamaya çalışacağı doğrudur.

Aynı zamanda bu dağılımın şekli ve bu şeklin çok boyutlu centroidler ve dağılımda bulunan alt grup centroidler üzerindeki çoklu boyut etkileşimi etkileri ile nasıl belirlendiği de göz önünde bulundurulmalıdır. Bu çok karmaşık veri setleriyle ne yapmalı?

Bir veri öğesi "modelin varsayımlarını" karşılamadığında, aşamalı olarak tarama yaparız (aşağı doğru değil, aşağı doğru değil, yöntemin eşit fırsat işverenleri olmalıyız, her bir araç fabrikadan form fonksiyon fonksiyonlarını izleyerek gelir) Varsayım testlerinde "başarısız olmayanları" bulmak için diğer olası modellerin listesi.

Halk sağlığı veri setlerindeki mevcut formatta, beş yıllık artışlarla (5YI) AGE'nin işlenmesi için daha standart bir model bulmamız gerekiyor (veri görselleştirme topluluğu olarak). AGE'nin veri görselleştirmesine oyum (yeni 5YI formatı verilmiştir) histogramları, kutu ve bıyık parsellerini kullanmaktır. Evet, bu medyan anlamına gelir. (Hiçbir püf noktası tasarlanmamıştır!)

Bazen bir resim gerçekten bin kelimeye bedeldir ve soyut bir binin özetidir. Kutu ve bıyık grafiği, dağılımın "şeklini", neredeyse ikonik bir çözünürlük seviyesinde histogramın anlamlı bir sembolik gösterimi olarak gösterir. Beşinci yaş artışlarının dağılımlarını, "yan yana" kutu ve bıçağın, 75. ila 50. Dünya. Tablo görüntüsünün metinsel mekaniği ile veri gösterme heyecanını yaşamaya devam edenler için, "gövde ve yaprak" şeması "eğri çizgide" animasyonlu görsel grafik elemanı olarak kullanıldığında da kullanılabilir.

AGE yaşlandı. Şimdi mevcut olan daha güçlü hesaplama algoritmalarıyla daha fazla araştırılması gerekiyor.


1
Bu iyi yazılmış bir yazıdır, ancak orijinal soru ile herhangi bir bağlantısı olduğu görünmüyor.
Andy W.

Sanırım dolaylı olarak ama sorunun net niyeti @Andy'ye hitap ediyor. Eğer varsa hata, sorunun kendisinde yatmaktadır, bu belirsizdir, çünkü bir ortalamanın bir medyandan “daha ​​kötü” olabileceği duygusunu belirtmez. Bu nedenle iyi bir cevap, bunu araştırmalı ve yaş dağılımını tek bir istatistikle özetlemenin amacını düşünmelidir. Bu, doğal olarak, bir "yaş" ın ne anlama gelebileceği ve yaş dağılımlarının nasıl uygun bir şekilde karşılaştırılacağına dair tartışmalara yol açar.
whuber

3

Yaş dağılımları için ortanca ortalamaları seçmek için iyi bir tanımlayıcı neden olduğunu sanmıyorum. Raporlanan verilerin karşılaştırılmasında bir pratiklik vardır.

Birçok ülke, üst grubu açık uçluyken, 5 yıllık aralıklarla nüfuslarını bildirmektedir. Bu, özellikle en genç aralık (bebek ölüm oranlarından etkilenen), üst "aralık" (80+ "aralık" ın ortalaması nedir?) Ve en yakın aralıkların aralığını hesaplamakta bazı zorluklara neden olur. Her aralığın ortalaması genellikle ortadan daha düşüktür).

Medyanı, medyan aralığı içinde araya sokarak tahmin etmek çok daha kolaydır, genellikle bu aralıkta düz veya yamuk bir yaş dağılımı varsayarak yaklaşık olarak tahmin edilir (birçok ülkede ölüm oranları medyan yaş civarında göreceli olarak düşüktür; genç ya da yaşlı içindir).


3

Yararlı bir cevap vermek için asıl soru, sorunun arkasındaki soruyu bilmemizi gerektirir. Başka bir deyişle, "Farklı ülkelerin yaş dağılımını karşılaştırarak neden bir tür özet istatistik istiyorsun?" Medyan bazı sorular için en yararlı olabilir. Ortalama diğerleri için en yararlı olabilir. Ve muhtemelen "belirli bir yaşın üstünde (veya altında) yüzde" nin en yararlı istatistik olacağı soruları vardır.


2

Burada iyi cevaplar alıyorsun, ama 2 kuruş ekleyeyim Kan hacmi, yok etme oranı, ilaç etkisinin baz seviyesi, maksimum ilaç etkisi ve bunun gibi parametrelerle uğraşan farmakometrilerde çalışıyorum.

Herhangi bir değeri artı ya da eksi alabilen değişkenleri, sadece pozitif olabilecek değerlerle ayırabiliriz. Herhangi bir değeri artı veya eksi alabilen bir değişken örneği, pozitif, sıfır veya negatif olabilecek ilaç etkisi olabilir. Sadece gerçekçi olarak pozitif olabilecek bir değişken örneği, kan hacmi veya ilaç eleme oranıdır.

Bunları tipik olarak normal veya lognormal, değerli olanlar için normal ve sadece pozitif olanlar için lognormal dağılımlarla modelliyoruz. Lognormal sayı, normal dağılıma sahip bir sayının gücüne alınan E sayısıdır ve bu yüzden sadece pozitif olabilir.

Normal dağılım gösteren bir değişken için, medyan, ortalama ve mod aynı sayıdır, bu nedenle hangisini kullandığınız önemli değildir. Bununla birlikte, lognormal olarak dağılmış bir değişken için, ortalama hem ortanca hem de moddan daha büyüktür, bu yüzden gerçekten çok kullanışlı değildir. Aslında, ortanca, altta yatan normalin ortalamanın olduğu yerdir, bu yüzden çok daha çekici bir ölçüdür.

Yaş (muhtemelen) hiçbir zaman negatif olamayacağından, lognormal dağılım muhtemelen normalden daha iyi bir tanımdır, bu nedenle ortanca (normalin altındaki E) medyan daha faydalıdır.


5
Yaş dağılımı kesinlikle log normal değildir.
Rob Hyndman,

1
Çıkarım yapabileceğinizi düşünmüyorum, log-normalde her zaman pozitif olduğu gerçeğinden dolayı normal dağılmış durumda. Gama ve Weibull dağılımları da her zaman pozitiftir, öyleyse neden bunları seçmiyorsunuz?
nico,

@Rob: @nico: Haklı olduğuna eminim. Kötü bir örnek seçimiydi. Tipik olarak hacim ve boşluk gibi farmakometrik parametreleri modelliyoruz.
Mike Dunlavey

2

Medyanın standart sapma ile menzil ve ortalama ile kullanılması gerektiğini öğrendim. Yaş hakkında konuştuğumuzda, aralığın yayılmayı ifade etmenin daha alakalı bir yolu olduğunu ve çoğu için anlaşılmasının daha kolay olduğunu düşünüyorum. Örneğin, bir çalışma popülasyonunda yaş ortalaması 53 (SD 5.4) veya yaş ortalaması 48 (23-77) idi. Bu nedenle, ortalama yerine medyan kullanmayı tercih ederim. Fakat burada bir istatistikçinin veya istatistik uzmanının menzili olan ortalamaları kullanma hakkında ne söyleyeceğini merak ediyorum. Bunu bilimsel yazılarda biraz görüyorum.


Özgeçmişe hoşgeldin, Susanne. Bunu cevap almak amacıyla göndermişseniz, lütfen silin ve yeni bir soru olarak yeniden gönderin. Bu sitenin nasıl kullanılacağına dair rehber yardım merkezimizde bulunabilir .
whuber

1

John'un math.stackexchange hakkındaki cevabı aşağıdaki gibi görüntülenebilir:

Eğriltilmiş bir dağılımınız olduğunda, medyan ortalamadan daha iyi bir istatistik olabilir.

Yetişkinlerden daha fazla bebek olduğunu söylediğinde, esasen yaş dağılımının çarpık bir dağılım olduğunu öne sürdüğünü söylüyor.


Aslında bugünlerde birçok ülkede çarpıklık, yaşlılara doğru değil, tostlara göre daha fazla.
JM, istatistikçi değil

Belki de öbür tarafa çarpıktır, ancak genel nokta geçerli. Eğri dağılımlar için bir medyan ortalamadan daha anlamlı olabilir.

Ben sadece bu noktayı vurgulamak için math.stackexchange hakkındaki cevabımı güncelledim. İnsanlar simetri ararlar ve orada olmadığı zaman yanlış bir şekilde simetriyi dayatabilirler. Ortancayı rapor ettiğinizde, simetrik bir cevap verirsiniz - medyan popülasyonu yarıya böler - dağılım simetrik olmasa da.
John D. Cook

Bu cevap bana her zaman biraz kırılgan geliyor: dağılımlar yamulmadığında (yani simetrikler), ortalama medyan ile eşittir , bu nedenle medyanın "çarpık olduğu zaman medyanın" daha iyi "olduğunu söyleyerek" sadece kullanım " medyan. "
Alexis,

1

Yaş ortalaması, medyan yaş için durum böyle değilken, veri kümenizdeki aykırı değerlerden etkilenir. Aşılanan hastalara veri seti örneği verelim: 1,2,3,4,4,5,6,6,6,78 yıl ortalama: 11,5 ve bu hastaların ortanca yaşı 4,5'tir. bu ortalama yaş 78'den etkilenmiştir. Ortanca eğri dağılımın veri setleriyle uğraşırken en iyisidir.


Kullanıcı 28’e cevabımı görün.
Alexis

0

Elbette, demografik analiz durumunda, hem ortalamanın hem de medyanın, yalnızca medyan tarafından yanlış etiketlenebilecek büyüme ayraçları veya büyüme alanları arıyorsanız, özellikle birbiriyle kombinasyon halinde değerli olacağını düşünürdüm. Büyük bir emeklilik topluluğuna sahip topluluklarda veya doğum oranı patlaması olan bir alanda, yalnızca medyan size bütün resmi vermeyebilir ve bu, ortalamanın karşılaştırılmasında çok yararlı olabileceği yerdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.