Birkaç iyi yanıt daha fazla yorum için yer bırakıyor.
Birincisi, hiç kimse medyanın aykırı değerleri ortadan kaldırmaya yönelik olduğu fikrine itiraz etmedi, ancak bunu nitelendireceğim. Amaçlanan anlam açıktır, ancak gerçek verilerin daha karmaşık olması kolaydır. En fazla medyan, aykırı değerleri indirim veya yok saymayı amaçlamaktadır, ancak bu bile garanti edilmez. Örneğin, 1 1 1 5 5 5 puanları ile medyan ve ortalama 3'te hemfikir, bu yüzden her şey iyi görünebilir. Ancak fazladan 5 medyanı 5'e, ekstra 1 medyanı 1'e getirir. Ortalama her durumda yaklaşık 0.286 hareket eder. Dolayısıyla burada ortalama medyandan daha dirençlidir. Örnek olağandışı olarak reddedilebilir, ancak aşırı değildir. Bu nokta doğal olarak orijinal değil. Yapıldığı bir yer Mosteller, F. ve Tukey, JW 1977. Veri Analizi ve Regresyon. Reading, MA: Addison-Wesley, s.34-35.
İkincisi, kesilmiş araçlardan bahsedildi ve fikir daha büyük bir itmeyi hak ediyor. Ortalama ve medyan keskin alternatiflere ihtiyaç duymaz, böylece analistin birini veya diğerini seçmesi (oy vermesi) gerekir. Her kuyrukta belirli sayıda değeri kırpmaya dayalı olarak mümkün olan tüm kesilmiş araçları düşünebilirsiniz . Tablo, ortalamanın hesaplanmasına dahil edilen değerlerin sayısını # olarak gösterir:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
Buradaki ana resim, aşırı değerler nedeniyle kapalı olma riskine karşı bir tür sigorta olarak indirim oranınızı (her kuyrukta şüpheli olarak çok fazla değeri göz ardı edebilirsiniz) seçebilmenizdir. Gördüğüm, burada beklenen ortalama ve medyan arasında oldukça düzgün bir gradyan, çünkü verilerin 1, 2, 3, 4, 5 değerlerinin hepsi mevcut. İzole edilmiş bir aykırı değer ile dizide büyük bir sıçrama bekleniyor.
Her kuyrukta eşit sayıları kesmek için kesilmiş araçlarla ilgili bir yükümlülük yoktur, ancak bunu genişletmeyeceğim.
Üçüncü olarak, örnek Amazon incelemelerinden kaynaklanmaktadır. Bağlam, verilerin nasıl özetlenmesini istediğinizde yol gösterir . Amazon yorumları durumunda en iyi cevap yorumları okumaktır! Yüksek ve düşük dereceler benzer şekilde sahte gerekçelerle olabileceği için (dolaylı olarak: bu kitabın yazarı arkadaşımdır) ve / veya kararınızla ilgisiz (açıkça: yeniden satıcı bana kötü muamele etti), bana açık bir şey yok bu tür verilerin nasıl özetleneceği ve aslında Amazon'un maksimum düzeyde bilgilendirici olduğunu göstererek.
Dördüncüsü ve en temel ama aynı zamanda en temel olanı, sizi kim seçiyor? Bazen hem ortalama hem de medyan rapor edilmelidir (ve söylendiği gibi bir dağıtım grafiği de).