Çarpık bir değişkeni özetlemek için ortalama


11

Çok eğri veriler üzerinde çalışıyorum, bu yüzden merkezi eğilimi özetlemek için ortalama yerine medyan kullanıyorum. Dağılımın bir ölçüsünü almak isterim.Ortalama eğilimini özetlemek için ortalama standart sapma± veya medyan çeyrek± bildiren insanlar sık ​​sık görsem de, medyan medyan mutlak dağılım (MAD)± bildirmek uygun mudur? Bu yaklaşımla ilgili potansiyel sorunlar var mı?

Bu yaklaşımı, özellikle rakamlarla dolu büyük tablolarda, alt ve üst çeyrekleri rapor etmekten daha kompakt ve sezgisel bulurdum.


3
Ortalama, medyan, alt ve üst çeyrekler birlikte veriyi daha iyi tarif eder diye düşünüyorum. Burada başka tanımlayıcı istatistikler de bulabilirsiniz .

1
Mümkün olduğunca özlü olmak istiyorum: ortanca + 2 çeyreklik iyi mi?
Mulone

4
MAD, bir toplu veri dağılımını ifade etmek için iyi bir istatistiktir - çeyrekler arası aralıktan bile aykırı değerlere karşı daha dayanıklıdır. Ancak medyan MAD'in gerçekten ne anlama geleceğini ve kitlenizin bunu nasıl yorumlaması gerektiğini düşünmek isteyebilirsiniz . Ortalama ± SD ile aynı asimtotik veya Chebeyshev eşitsizliğine benzer özelliklerden hoşlanmaz . Belki de, bu tür ifadelerin neden nadiren kullanılırsa kullanılmasının nedeni budur. ±±
whuber

1
Her zaman MAD'in analogdan mse'ye olan mutlak sapma anlamına geldiğini düşündüm, bu da ortalama kare hatasıdır. ortalamadan mutlak sapmaların ortalamasıdır. Haklı mıyım yoksa MAD'e mi gidiyorum?
Michael R.Chernick

2
resim bin kelimedir, mümkünse histogramı göstermek çok güçlüdür.
bdeonovic

Yanıtlar:


7

±

±

Çeyrekler / kantiller, fazladan bir maliyetle dağıtım hakkında çok daha iyi bir fikir verir - (4.9,5.0.1000000.0). Şüphenin, çarpıklığın üçüncü an olduğu ve çarpık bir dağılımı sezgisel olarak görselleştirmek için üç sayıya / boyuta ihtiyaç duyduğumdan kuşkulanıyorum.

Bununla birlikte, onunla ilgili yanlış bir şey yok - burada sadece sezgileri ve okunabilirliği savunuyorum. Kendiniz veya ekibiniz için kullanıyorsanız, delirin. Ancak bence geniş bir kitleyi karıştırır.


2
(+1) Üçüncü an açısından çarpıklık tanımının günümüzde en çok kabul edilmediğini eklemek istiyorum, çünkü sadece hafif kuyruklu dağılımlarda uygulanabilir. Çarpıklığın daha modern tanımları kantillere dayanmaktadır, bazıları burada bulunabilir .

1
@amoeba mı? MAD için Wikipedia sayfası, verilen verilerle 0.1 olan Medyan (| Xi - Median (X) |) olarak tanımlar.
Upper_Case

@Upper_Case Teşekkür ederim. Yanılmışım (5-5 = 0 terimi unuttum). Gelecekteki okuyucuları karıştırmamak için yukarıdaki yorumumu sileceğim!
amip

4

MAD kullanımı, temeldeki dağılımın simetrik olduğunu varsaymak için kullanılır (medyanın üstünde ve medyanın altındaki sapmalar eşit olarak kabul edilir). Verileriniz çarpıksa, bu açıkça yanlıştır: verilerinizin gerçek değişkenliğini fazla tahmin etmenize neden olur.

Neyse ki, aynı derecede sağlam, neredeyse hesaplanması kolay olan ve simetriklik almayan deli için birkaç alternatifden birini seçebilirsiniz.

Rousseeuw ve Croux 1992'ye bir göz atın . Bu kavramlar iyi açıklanmıştır burada ve uygulanan burada . Bu iki tahminci, iyi gelişmiş bir teori olan U-istatistik sınıfının üyeleridir.


1

"Bu makalede daha doğru bir asimetri indeksi incelenmiştir. Spesifik olarak, sol ve sağ varyansın kullanılması önerilmektedir ve bunlara dayanan bir asimetri indeksi getirilmektedir. Birkaç örnek yararlılığını göstermektedir. Dağılımın daha doğru değerlendirilmesi sorusu Tüm simetrik olmayan olasılık dağılımlarında ortalama ortaya çıkan veriler hakkında bilgi verir Nüfus dağılımı simetrik olmadığında, bir veri kümesinin ortalaması ve varyansı (veya standart sapması) verilerin dağılımı hakkında kesin bir fikir vermez, özellikle şekil ve simetri. Ortalama, önerilen sol varyans (veya sol standart sapma) ve sağ varyansın (veya sağ standart sapma) veri kümesini daha doğru tanımladığı iddia edilmektedir. "

bağlantı


3
Bir makalenin özetini alıntıladınız ve bir URL'ye benzeyen bir şey sağladınız (bağlantıyı düzeltme özgürlüğünü aldım). Burada aradığımız cevapların türü bu değil; Yanıtınızı düzenlemenizi ve bu bağlantının soruyu yanıtlamaya neden yardımcı olduğu hakkında kendi yorumlarınızı eklemenizi öneririz. Bu asimetri endeksinin ortalama merkezi eğilim ve MAD ile nasıl ilişkili olduğunu açıklarsanız cevap çok daha iyi olacaktır.
MånsT
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.