Arsa hazırlarken hangi en iyi uygulamaları izlemeliyim?


40

Araziler hazırlarken genellikle kendi kendine özgü seçimlerimi yaparım. Ancak, araziler oluşturmak için herhangi bir en iyi uygulama olup olmadığını merak ediyorum.

Not: Rob'un bu sorunun cevabına yorumu burada çok önemlidir.

Yanıtlar:


23

Tufte ilkeleri, arsa hazırlarken çok iyi uygulamalardır. Ayrıca bakınız: Beautiful Evidence

İlkeler şunları içerir:

  • Yüksek veri-mürekkep oranını koru
  • Grafik önemsiz kaldırmak
  • Grafiksel elemana çoklu fonksiyonlar verin
  • Veri yoğunluğunu aklınızda bulundurun

Aranacak terim Bilgi Görselleştirme


4
Tufte'nin Sayısal Bilgilerin Görsel Gösterimi ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) Beautiful Evidence IMO'dan daha iyidir. Kitaplarının dördü de iyi, ve kurslarından birine katılma şansın varsa, yap.
Stephen Turner

5
Tufte'nin söylediklerinin çoğuyla aynı fikirdeyim, ama şunu söylemek zorundayım, düşük veri: mürekkep kutusu lekeleri sadece aptalca. Sanırım beni standart kutulara göre 3-4 kat daha uzun sürebilir. R varsayılanları çok daha iyidir (kuyrukların ucundaki satırlar gereksiz olmasına rağmen). Geleneksel kutu lekeleri, örnek boyutunu (genişlikte) ve standart sapmaları (çentikli) gösterebilme avantajına sahiptir.
naught101

2
+1 @ naught101 az önce birkaçı bu görüşü paylaşıyor SO: stackoverflow.com/questions/6973394/…
Ben

15

En iyi uygulamaları ifade etmek için bütün gün burada kalabiliriz, ancak Tufte okuyarak başlamalısınız. Birincil önerim:

Basit tut.

Genellikle insanlar çizelgelerini bilgi ile doldurmaya çalışırlar. Ancak, iletmeye çalıştığınız bir ana fikre sahip olmalısınız ve eğer birisi neredeyse mesajınızı hemen almazsa, onu nasıl sunduğunuzu yeniden düşünmelisiniz. Mesaj açık olana kadar çizelgeniz üzerinde çalışmaya başlamayın. Occam'ın tıraş bıçağı da burada geçerli.


1
Bu noktanın çoğunluğuyla aynı fikirdeyim, ancak sanırım "Basit tut." belirsiz olabilir. Asıl amacınız, grafiğin ne iletmesini istediğinizi bilmenizdir. "Basit olsun." Tufte'nin cesaretlendirdiği "Veriler: mürekkep oranı yüksek olmalıdır.", Tufte'nin cesaretlendirdiği "En fazla üç değişken sunun" gibi diğer fikirleri ortaya koyuyor.
Thomas Levine

Açıkçası bu tavsiye tam tersi daha iyidir. Ancak grafiğin zorunlu olarak karmaşık olduğu ve ayrıntılı, dikkatli, düşünceli bir çalışma gerektirdiği durumlar vardır. Ancak komplikasyonun kendisi mümkün olduğunca basit olmalıdır. Örneğin, 5 x 5'lik bir matristeki 25 grafik uzun süreli çalışmaya ihtiyaç duyabilir, ancak her birinin verinin yalnızca bir kısmını gösterdiği fikri, kolayca anlaşılması kolaydır.
Nick Cox

12

Her zaman takip etmediğim, ancak zaman zaman yararlı olabilecek bir kural, arsanızın gelecekteki bir noktasında olabileceğini göz önünde bulundurmaktır.

  • faks ile gönderilen
  • fotokopisi ve / veya
  • siyah beyaz olarak çoğaltılmıştır.

Arsalarınızı yeterince net bir şekilde ortaya koymaya ihtiyacınız var. Gelecekte kesin olarak çoğaltılsalar bile, arsanın aktarmaya çalıştığı bilgiler hala okunaklı.


14
Sanırım faksla geçmişte bir noktada gönderildi ;)
hadley

Bunun için +1. Seminal arkanız, ödevinizin kalbi, anlaşılmamalı, çünkü yazdırdım.
Fomite

bu cevap benzer bir sorunu giderir.
naught101

8

Net bir mesaj iletmenin yanı sıra, daima zaferi hatırlamaya çalışırım:

  • Etiketler ve yazılar için yazı tipi boyutları yeterince büyük olmalıdır, tercihen son yayında kullanılan yazı tipi boyutu aynıdır.
  • çizgilerin genişliği yeterince büyük olmalıdır (araziler sadece biraz küçülürse, 1 nk çizgiler kaybolma eğilimindedir). 3 ila 5 pt hat genişliğine gitmeye çalışıyorum.
  • Birden fazla veri kümesi / eğriyi renkli çiziyorsanız, siyah-beyaz olarak basıldıklarında, örneğin renge ek olarak farklı semboller veya çizgiler kullanarak anlaşılmalarını sağlayın.
  • her zaman kayıpsız (veya kayıpsız yakın) bir format kullanın, örneğin pdf, ps veya svg gibi bir vektör formatı veya yüksek çözünürlüklü png veya gif (jpeg hiç çalışmaz ve satır resmi için tasarlanmadı).
  • Yayında kullanılacak son görünüş oranında grafikler hazırlar. En boy oranını daha sonra değiştirmek rahatsız edici yazı tipi veya sembol şekilleri verebilir.
  • Kullanılmayan histogram bilgileri, trend çizgileri (pek kullanışlı değil) veya varsayılan başlıklar gibi çizim programından daima gereksiz yararlar.

Çizim yazılımımı (matplotlib, ROOT veya root2matplotlib) varsayılan olarak bu hakkın çoğunu yapacak şekilde yapılandırdım. Kullanmadan önce, gnuplotburada daha çok bakım gerekiyordu.


8

Fizik alanında, tüm makalenin / raporun sadece arazilere hızlıca bakıldığında anlaşılması gerektiği konusunda bir kural vardır. Bu yüzden onların kendi kendini açıklayıcı olmaları gerektiğini tavsiye ederim.
Bu aynı zamanda, izleyicinizin bir tür arsaya aşina olup olmadığını her zaman kontrol etmeniz gerektiğini de gösterir - Bir zamanlar her bilim insanının hangi kutu lekeleri olduğunu bildiğini ve sonra bir saatini boşa harcadığını varsayarak büyük bir hata yaptım.


Kutu grafiği üzerindeki sempatiler deneyime sahiptir, ancak bunun anlamı şudur: (a) merkezli bir konuyu temel alan bir şey göstermek yerine, nispeten basit bir değişkenin kullanılması (örneğin, medyan, çeyrek,% 5 ve% 95 puan ve ötesindeki tüm veri noktalarını göstermek). 1.5 IQR; (b) sözleşmelerin açık bir şekilde açıklanması için bir başlık eklenmesi.
Nick Cox

6

İşte gördüğüm en yaygın hatalara dayanarak benim kurallarım (belirtilen tüm diğer noktalara ek olarak)

  • Öğe sırası uygun değilse, çizgi grafikleri değil, dağılım grafiklerini kullanın.
  • Karşılaştırılması amaçlanan arazileri hazırlarken, hepsi için aynı ölçek faktörünü kullanın.
  • Daha da iyisi - verileri tek bir grafikte birleştirmenin bir yolunu bulun (örneğin: kutu noktalar çok sayıda dağıtımı karşılaştırmak için birkaç histogramdan daha iyidir).
  • Birimleri belirtmeyi unutma
  • Bir göstergeyi sadece yapmanız gerekiyorsa kullanın - genellikle eğrileri doğrudan etiketlemek daha açıktır.
  • Bir açıklama kullanmanız gerekiyorsa, boş bir alanda arsa içinde hareket ettirin.
  • Çizgi grafikler için , sayfa ile kabaca 45 ° C'de olan çizgiler veren bir en boy oranını hedefleyin .

"kutudiyagramlar dağılımları çok sayıda karşılaştırmak için çeşitli histogramlar daha iyidir" - Bu veri tek modlu ise sadece doğrudur ve basıklığını ya .. kutudiyagramlar tarafından yakalanamayan diğer bazı özelliklere sahip değildir
naught101

6

R grafik kütüphanesine bakınız, ggplot2. Ayrıntılar web sayfasındadır http://had.co.nz/ggplot2/ Bu paket, Tufte ilkelerini, Cleveland yönergelerini ve Ihaka'nın renk paketini izleyen çok iyi varsayılan grafikler oluşturur.


6

Renk çiziyorsa, renk körü insanların yalnızca renkleri renkle ayırt etmekte zorlanabileceğini düşünün. Yani:

  • Çizgileri ayırt etmek için çizgi stilleri kullanın.
  • Elemanlarda ekstra ağırlık kullanın, en az 2 puan vb.
  • Noktaları ayırt etmek için renklerin yanı sıra farklı işaretleyicileri kullanın.
  • Aynı zamanda pozisyon ve stile de değinen etiketleri ve ek açıklamaları kullanın.
  • Metin içindeki arsa elemanlarına atıfta bulunurken, bunları renk, bağıl konum ve stile göre tanımlayın: "kırmızı, üst, nokta nokta eğrisi"
  • Renk körü dostu bir palet kullanın. Bkz http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Code.google.com adresindeki son referansta paletin basit bir python uygulaması var, python-cudtools'u arayın.

Ayrıca, birinin gri tonlamalı bir yazıcıda yazdırması gerekebileceğini de göz önünde bulundurun. Bunu daha önce yaptım - ödevim için ggplot2 varsayılan renklerini kullandım (bir ekranda harika görünüyordu), sonra siyah beyaz yazdırdım ve renklerin yarısı diğerlerinden ayırt edilemedi! * allık *
naught101

4

Bunlar harika öneriler. Http://biostat.mc.vanderbilt.edu/StatGraphCourse adresinde çok fazla malzeme topladık . İlaç endüstrisi, akademi ve FDA'daki bir grup istatistikçi de klinik denemeler ve ilgili araştırmalar için çok faydalı olacak bir kaynak yaratıyor. Bir ay içinde çok fazla yeni materyal ortaya çıkacak ama çok şey zaten var - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

En sevdiğim grafik kitabım, William Cleveland'ın Grafik Verileri Öğeleri .

Yazılım açısından, bence R'nin ggplot2 ve kafes paketlerini yenmek zor. Stata ayrıca bazı mükemmel grafikleri de destekliyor.


3

Ayrıca, arsalarınızı yayınlamak istemediğiniz yere de bağlıdır. Bir dergi için herhangi bir plan yapmadan önce yazarlar için kılavuzuna başvurarak çok fazla sorun kurtaracak.

Ayrıca grafikleri, bunları oluşturmak için kullandığınız kodu değiştirmesi veya kaydetmesi kolay bir biçimde kaydedin. Muhtemelen düzeltmeler yapmanız gerekenler.



2

Diğer cevaplar inandırıcı olamayacak kadar formüle edildi, bu yüzden daha genel bir cevap vereyim. Bir süre bu soru ile mücadele ettim. Bu süreci öneriyorum:

  1. Mesajını bil
  2. Kitlenizi bilin
  3. Kısıtlarını bilmek
  4. Mesajınızı, kısıtlamalarınız göz önüne alındığında kitlenize göre düzenleyin.

"Basit tutmak" gibi battaniyeyle ilgili iddialardan şüpheliyim - bu ne anlama geliyor? Şey, izleyiciye bağlı. Bazı izleyiciler Tufte tarzını yiyor. Ancak bazı izleyiciler şimdi ve sonra küçük bir grafik önemsizliği için teşekkür eder. Bazı insanlar saçılma noktalarından sıkılıyor. Bazı insanlar renkli arka planlar gibi. "Estetik" saflıktan ödün verseniz bile onları biraz meşgul etmek çok mu yanlış? Karar vermek size kalmış.

Hedef kitlenizin tepkisi önemli bir geri bildirim olacak, ancak tek değil. Sunumunuzdan önce ve sonra anlayışlarını ölçmenin bir yolunu bulursanız , yaptığınız etkiyi anlamaya başlayacaksınız.

"Doğru" cevap, bu tür sorulara bağlı olacaktır:

  • Hangi medyayı kullanacaksınız?

  • Statik veya etkileşimli araziler mi oluşturuyorsunuz?

  • Önceden tanımlanmış bir hikaye anlatmaya mı çalışıyorsun (açıklama) ya da denemeyi teşvik etmeyi mi düşünüyorsun?

  • İzleyicinin hangi dereceye kadar kendi sonuçlarını çıkarmasını istiyorsun?

  • İzleyicinin ne dereceye kadar takip etmesini ve hikayenize ikna edilmesini istiyorsunuz?

  • İzleyicilerin bulgularınızı ne ölçüde sorgulamasını istiyorsunuz?

Özet olarak, mesajlarınızı, izleyicilerinizi ve kısıtlamalarınızı vererek materyallerinizi bilerek tasarlayın .


"Meşgul" veya dikkat dağıtmak? Renk tamam olabilir, ama sonuçta burada veriler için varsınız ve estetik verilere hizmet etmeli, tam tersi değil.
na1101

2

Tufte'nin bahsettiği, diğer cevaplarda olmayan, eşleştirdiği bir şey olduğunu hatırlıyor gibiyim, harita üzerinde - yani, konum, yön, boyut vb . Grafikte ne var gerçek dünyada olmalı. Büyük olan büyük olmalıdır (alanların bölgeleri temsil etmesi gerektiğini ve hacimlerin hacimlerini göstermesi gerektiğini unutmayın. Asla bir alan tarafından skaler bir değeri temsil etmeye çalışmayın, bu çok belirsizdir!). Bu, eğer ilgili ise renkler, şekiller vb. İçin de geçerlidir.

İlginç bir örnek, burada "etek dizisi" grafiğidir: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Teknik olarak doğru olsa da "uzun boylu" bir etek boyu grafikte daha yüksek bir pozisyona sahip olsa da, aslında oldukça kafa karıştırıcıdır, çünkü etek uzunluğu üstten başlar ve aşağıya doğru gider (insanlar veya ağaçların aksine, yüksekliği yüksekliği; zemin). Dolayısıyla artan etek boyu aslında daha düşük bir değeri temsil eder :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

görüntü tanımını buraya girin

Her zaman olduğu gibi, zorluklar var. Örneğin, genel olarak ilerlemek için zaman ayırdığımızı düşünüyoruz ve batıda en azından soldan sağa okuyoruz, bu yüzden zaman serisi grafiklerimiz de zamanla artarken sağdan sola akıyor. Peki, zaman içinde en iyi yanal olarak temsil edilen bir şeyi (örneğin bir şeyin doğu-batı ölçümleri) temsil etmek istersen ne olur? Bu durumda, taviz vermeniz veya bir yukarı veya aşağı hareket etme zamanını göstermeniz gerekir (hangisi yine kültürel algılara dayanır, sanırım) veya yanal değişkeninizi grafiğinizde yukarı / aşağı olarak eşleştirmeyi seçmelisiniz.


1
Süre kapalı ticaretin bir örneği / uzay Haritalar (kritik tartışma ve örnekler yapma, kitapta Burada verilen .
Andy W

Güzel (korkunç) örnek! Haritalar başka, daha zorlu bir ticaret ortaya koyuyor: iki boyutlu bir sayfada 2 boyut + zamanı temsil etmeye çalışıyor (örn. Kıtasal kayma haritaları). Oldukça zor. Ama sanırım animasyonlar bunun için var :)
naught101

Söylediğiniz örnek, genellikle ortaya çıkan iki ekstra noktadan bahsetmenize izin veriyor. 1. Zaman ekseninde "TIme" gibi bir başlık veya etiket genellikle gereksizdir. 2. "Etek etekleri" gibi başlıklar veya etiketler, uygun olduğunda ölçüm birimleri dahil, kısa ve bilgilendirici bir açıklama ile her zaman geliştirilebilir.
Nick Cox

1

Arsaların nasıl tartışılacağına bağlıdır.

Örneğin, farklı konumlardan arayanlarla yapılacak bir grup toplantısı için araziler gönderiyorsam, Excel yerine diğerlerini Powerpoint'te bir araya getirmeyi tercih ediyorum, bu yüzden çevreyi çevirmek daha kolay.

Bire bir teknik aramalar için, müşteriye bir arsa kenarı taşıyabilmesi ve ham verileri görüntüleyebilmesi için excel'e bir şey koyacağım. Veya yan regresyon katsayıları boyunca hücrelere p değerleri girebilirim, örneğin

Akılda tutunuz: Arsalar, özellikle slayt gösterisi için veya bir gruba e-postayla göndermek için ucuzdur. Aynı grafiğe farklı kohortlar (örneğin, "erkekler ve dişiler") koymayı denediğim 5 parselden daha fazlasını çevirebileceğimiz 10 açık plan yapmayı tercih ederim.


1

Arsa seçiminin verileri analiz etmek için kullanılan istatistiksel test türünü yansıtması gerektiğini ekleyeceğim. Başka bir deyişle, analiz için verilerin hangi özellikleri kullanıldıysa görsel olarak gösterilmelidir - bir t-testi kullandıysanız ortalamaları ve standart hataları gösterirdiniz ve eğer bir Mann-Whitney testi kullandıysanız kutucukları gösterirdiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.