Bir grafiğin y ekseninin sıfırdan başlaması gerekip gerekmediği nasıl belirlenir?


45

"Veri ile yatmanın" yaygın bir yolu, değişikliklerin gerçekte olduğundan daha önemliymiş gibi görünmesini sağlayan y ekseni ölçeğini kullanmaktır.

Bilimsel yayınları veya öğrencilerin laboratuvar raporlarını incelerken, bu “veri görselleştirme günahı” ndan sık sık üzülüyorum.

Ancak, "y eksenini daima sıfırdan başlat" zor ve hızlı bir kural değildir. Örneğin, Edward Tufte işaret bir zaman serisi, taban zorunlu sıfır değildir:

Genel olarak, bir zaman serisinde, verileri sıfır noktasını değil gösteren bir taban çizgisi kullanın. Sıfır noktası verilerin çizilmesinde makul bir şekilde gerçekleşirse, sorun yok. Ancak, veri hattında neler olup bittiğini gizleme pahasına sıfır noktasına ulaşmaya çalışırken çok fazla boş dikey alan harcamayın. (Bu noktada İstatistiklerle Nasıl Yatırılır) kitabı yanlıştır.)

Örneğin, zaman serilerinde sıfır puan bulunmayan her yerde, herhangi bir büyük bilimsel araştırma yayınına bir göz atın. Bilim adamları verilerini göstermek istiyor, sıfıra değil.

Verileri bağlamsallaştırma dürtüsü iyidir, ancak bağlam, iyi bir çok veri setinde bile oluşmayan bir sayı olan sıfıra kadar ulaşan boş dikey alandan gelmez. Bunun yerine, içerik için yatay olarak daha fazla veri gösterin!

Gözden geçirdiğim makalelerde yanıltıcı sunumlara dikkat çekmek istiyorum, ancak sıfır y ekseni bir saflık olmak istemiyorum.

Y ekseninin ne zaman sıfırdan başlatılacağı ve bunun gereksiz ve / veya uygun olmadığı durumlar için herhangi bir kılavuz var mı? (Özellikle akademik çalışma bağlamında.)


3
0'ın dahil edilmemesinin (dahil edilmemesinin) potansiyel olarak yanıltıcı olup olmadığını eleştiren anlatılan hikayeye bağlı olduğunu düşünüyorum.
gung - Monica’yı eski

2
Bir konuşmada, "yüksek oranda bastırılmış sıfırı not edin" ifadesi ya da benzeri, dürüstlüğü potansiyel olarak yanıltıcı bir şekle sokmak için kullanılabilir. Basılı materyalde bundan mutlu değilim, ama bir tutamda onu da kullanabilirsiniz.
dmckee

Bütün bunlardan kaçınmak için, mümkün olduğunda kutu lekeleri kullanıyorum. Ortalamaları ve hata çubuklarını hesaplamaya gerek yoktur ve hepsi tek bir arsada değerli bilgilerle (örn. Veri dağıtımı, yayılma, eğriltme, aralık) doludur. Ayrıca, ham verileri gösteriyorsunuz.
Stefan,

@Stefan Box arazileri gerçekten yardımcı olabilir. Bununla birlikte, bazı ders kitaplarının bile ANOVA'yı açıklamasının ardından kutu grafiklerini göstermesi garip. Bu amaç için, eğer hata çubukları değilse, kesinlikle konuyla ilgilidir ve bilgilendirici olmalıdır. Çeşitliliğe bağlı olarak, birçok kutu grafiği ham verileri gösterme konusunda çok zayıf bir iş çıkarmaktadır. Fakat yardımcı olan geliştirmeler var, örneğin kuantil kutu grafikleri. Ancak, bu bağlamda, veri araçlarının dışındaysa, gösterme araçlarının ve hata çubuklarının hiçbir şekilde gösterilmesini taahhüt etmediğini unutmayın . y=0
Nick Cox

@NickCox Yorumunuz için teşekkürler! ANOVA yapıldıktan sonra araçların gösterilmesi ve hata çubuklarının daha anlamlı olacağı konusunda hemfikirim . Ancak, herhangi bir analiz yapmadan önce, kutuların daha bilgilendirici olduğunu ve verilerinizin nasıl göründüğü ve seçilen ANOVA'nın uygun olup olmadığına dair bilgi verdiğimi biliyorum. Parametrik testler seçildiğinde ancak veriler gerekli varsayımlara uymadığında, "verilerle yatma" çoktan meydana gelebilirdi. Bu yüzden, bana bilimsel çalışmaların bir okuyucusu olarak, sunulan sonuçlarla ilgili kendi fikrimi oluşturmak için her zaman kutu lekeleri görmeyi seviyorum.
Stefan

Yanıtlar:


40
  • Grafiği boşlukta, anlamanıza yardımcı olmayacak şekilde kullanmayın. Verileri göstermek için boşluk gerekiyor!

  • Bilimsel (mühendislik, tıp, sosyal, işletme, ...) değerlendirmelerinizi ve istatistiksel değerlendirmenizi kullanın. (Müşteri ya da müşteri değilseniz, neyin ilginç ya da önemli olduğu hakkında, tercihen analizi yapanlar hakkında fikir edinmek için bu alanda birisiyle konuşun.)

  • Eğer sıfır ile karşılaştırmalar problemin merkezinde veya hatta bir miktar ilgi çekiyorsa , ekseninde sıfırı gösterin .y

Bunlar üç basit kuraldır. (Hiçbir şey, arada sırada aralarındaki gerginliği dışlamaz.)

İşte basit bir örnek, ancak üç nokta da ortaya çıkıyor: Bir hastanın vücut sıcaklığını Santigrat'ta, Fahrenheit'te ve hatta kelvin'de ölçüyorsunuz: Seçiminizi yapınız. Hangi anlamda, sıfır sıcaklık göstermekte ısrar etmenin yardımı ya da mantığı ne olur? Önemli, hatta tıbbi ya da fizyolojik olarak çok önemli olsa bile, aksi halde bilgiler gizlenecektir.

İşte sunumdan gerçek bir hikaye. Bir araştırmacı Hindistan'daki çeşitli eyaletler ve sendika bölgeleri için cinsiyet oranları hakkında veri gösteriyordu. Grafik, tüm çubuklar sıfırda başlayan bir çubuk grafikti. Bazı çubuklar, bazı önemli değişikliklere rağmen aynı uzunluğa yakındı. Bu doğruydu, ancak ilginç hikaye benzerliklere rağmen alanların farklı olduğu, farklılıklara rağmen benzer olmalarıydı. Erkekler ve kadınlar arasındaki paritenin (1 veya 100 kadın / 100 erkek) çok daha doğal bir referans seviyesi olduğunu öne sürdüm. (Referans olarak ulusal ortalama gibi bir genel seviyeyi kullanmaya da açık olacağım.) Bu küçük hikayeyi duyan bazı istatistiksel insanlar bile bazen "Hayır; barlar daima sıfırdan başlamalı" diye cevap verdi. Bana göre bu böyle bir durumda alakasız dogmadan daha iyi değildir.

Çubuk grafiklerinden bahsetmek, kullanılan grafik türünün de önemli olduğunu gösterir. Vücudun sıcaklıkları için, 35 ila 40 arasında bir ekseni aralığında olduğunu varsayalım, tüm verileri kolaylık sağlamak için C, ekseni 35'te "başlar". 35'te başlayan çubukların zayıf bir kodlaması olacağı açıktır . veri. Ancak burada sorun, uygun olmayan bir şekilde seçilen eksen aralığının uygun olmayan bir grafik elemanı seçimi olacaktır. yyy

Yaygın bir arsa türü, özellikle bazı biyolojik ve tıp bilimlerinde göründüğü gibi, sıfırdan başlayan kalın çubuklarla ortalamaları veya diğer özetleri ya da ince çubuklarla belirsizliği belirten standart sapma veya standart sapma tabanlı aralıkları gösterir. Bu tür patlatıcılar veya dinamit parselleri, onaylamayanlar tarafından çağrıldıkları gibi kısmen sıfırın her zaman gösterilmesi gerektiğine dair bir diktum nedeniyle popüler olabilir. Net etki, çoğunlukla ilgi veya faydada eksik olan sıfır ile yapılan karşılaştırmaları vurgulamaktır.

Bazı insanlar sıfır göstermek ister, ancak ölçeğin kesintiye uğradığını göstermek için ölçek molası da eklemek isterler. Moda değişimi ve teknoloji değişiklikleri. Onlarca yıl önce, araştırmacılar kendi grafiklerini çizdiğinde veya görevi teknisyenlere devrettiğinde, bunun el ile yapılmasını istemek daha kolaydı. Artık grafik programları çoğu zaman ölçek kırılmalarını desteklemiyor, ki bu bir kayıp olmadığını düşünüyorum. Öyle olsalar bile, grafik alanın ılımlı bir kısmını israf edebilen telaşlı bir eklentidir.

Hiç kimse ekseni için aynı kuralda ısrar ediyor . Neden olmasın? Son yüzyılda iklimsel veya ekonomik dalgalanmalar gösterirseniz, ölçeğin BC / CE sınırında veya başka bir kaynaktan başlamasının söylenmesi tuhaf olacaktır.x

Söz konusu üçe ek olarak uygulanan doğal olarak sıfırıncı bir kural vardır.

  • Ne yaparsan yap, çok net ol. Eksenlerinizi tutarlı ve bilgilendirici bir şekilde etiketleyin. Öyleyse, dikkatli okuyucuların ne yaptığınızı görmek için bakacağına güvenin.

Böylece bu noktada Edward Tufte'ye şiddetle katılıyorum ve Darrell Huff'a katılmıyorum.

EDIT 9 Mayıs 2016:

Tüm grafiklerinize değişmez bir şekilde 0-taban çizgisi eklemeye çalışmak yerine, bunun yerine mantıklı ve anlamlı taban çizgileri kullanın.

Kahire, A. 2016. Gerçek Sanat: İletişim için Veri, Grafikler ve Haritalar. San Francisco, CA: Yeni Biniciler, s.136.


7
Buna ek olarak: Veriler çubuklarla temsil edildiğinde, barbarların alanı gösterdiği ve alanın sıfırdan başlamaması durumunda yanıltıcı olduğu gerekçesiyle insanların dogmatik olarak "sıfırdan başlamak" ile yapışmaya daha yatkın olduklarını düşünüyorum. Bir günü Cleveland nokta arsa zaten genellikle daha uygun bir görselleştirme olduğunu - - orada sıfırdan başlamak için böyle çarpıcı fikirler görünüyor ve insanlar başlamak nerede esnek olmaya daha istekli görünüyor.
Silverfish,

4
Mükemmel cevap. Bu soruyu, tutarlı olmayan eksen aralıklarını sürekli kullanan bir makaleyi gözden geçirme bağlamında (verilerdeki önemsiz farklılıkları vurgulayarak) sordum. Bu cevap, gerçekten sinir bozucu olduğum şeyin verileri anlama ve yorumlamada (istatistiksel ve mühendislik) yargılama eksikliği olduğunun farkına varmamı sağladı - gözden geçirmede eksen aralığından şikayet etmekten çok daha yapıcı bir şey.
ff524

4
Eksene sıfıra başlama kuralı yalnızca oran olan sürekli değişkenler hakkında düşünmeyi mantıklı kılar; bu nedenle sıfırın gerçek bir anlamı vardır. 0 ağırlık ağırlık değildir. Vb veya F'deki sıcaklıklar sıfır için rasgele değerler kullanır, bu nedenle ekseni orada başlatmayı düşünmenin bir anlamı yoktur.
Harvey Motulsky

2
0 C C'de başlayan çubuklar, suyun donma noktasının altındaki ve üstündeki sıcaklıkları gösterir. Klimatolojide yapılanları gördüm ve fiziksel bir anlamı var. Doğal olarak, sıfırın oran ölçekleri için doğal olduğu, aksi takdirde keyfi olduğu konusunda daha genel bir noktaya katılıyorum.
Nick Cox,

3
Güzel, ama "yargı" noktasının izleyiciye bağlı olduğunu belirtmek isterim (izleyiciler her zaman önemli!). Teknik izleyiciler ekseni okuyacak ve sonuçları anlayacaktır. Yatırma popülasyonunun belirli bir kısmı, eksen etiketlerini kesin olarak görmezden gelecek ve ölçekle ilgili potansiyel olarak yanlış varsayımlar altında grafiğin şeklinden sonuçlar çıkaracaktır. Eğer grafik sakin olmayan bir kitleye yönelikse, bunu kendi kararınıza dahil etmeniz gerekir.
dmckee
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.