Bu grafik , verileri yaklaşık olarak şu şekilde olan iki yönlü bir olasılık tablosu görüntüler :
Branded Unbranded Social Referring Direct RSS
First-time... 177276 472737 88638 265915 472737 59092
Return Visits... 236002 629339 118001 354003 629339 78667
4+ Visits in ... 166514 444037 83257 249771 444037 55505
10+ Visit in ... 28782 76751 14391 43172 76751 9594
At Least One Visit... 6707 17886 3354 10061 17886 2236
Last Touch... 660 1759 330 989 1759 220
Bu komployu oluşturmanın sayısız yolu var. Örneğin, her dikdörtgen renkli yamanın konumlarını hesaplayabilir ve her yamayı ayrı ayrı yaslayabilirsiniz. Bununla birlikte, genel olarak, bir arsanın verileri nasıl temsil ettiğine dair kısa ve öz bir tanım bulmaya yardımcı olur.
Bir çıkış noktası olarak, bunu yığılmış bir çubuk grafiğin bir varyasyonu olarak görebiliriz .
Bu grafik neredeyse bir açıklamaya ihtiyaç duymaktadır: aşina olduğumuzdan, her dikdörtgen sırasının beklenmedik durum tablosunun her satırına karşılık geldiğini biliyoruz; dikdörtgenlerin uzunluklarının sayılarıyla doğru orantılı olduğu; üst üste gelmediklerini; ve renklerin tablonun sütunlarına karşılık gelmesi.
Bu tabloyu bir "veri çerçevesi" veya "veri tablosu" na dönüştürürsek Xsatır adını, sütun adını ve sayısını gösteren alanlarla sayı başına bir satıra sahip olmak, daha sonra onu çizmek, genellikle uygun bir işlevi çağırmak ve satır adlarını, sütun adlarını ve sayıları nerede bulacağınızı belirlemek anlamına gelir. Bir Grafik Gramer uygulaması ( ggplot2
paketi R
) kullanmak,
ggplot(X, aes(Outcome, Count, fill=Referral)) + geom_col()
Grafiğin ayrıntılarının, örneğin bir sıra çubuğunun ne kadar geniş olduğu ve hangi renklerin kullanılacağı, tipik olarak açık bir şekilde belirtilmelidir. Bunun nasıl yapıldığı çizim ortamına bağlıdır (ve nispeten az ilgi çekicidir: sadece bakmanız gerekir).
Grafik Grameri'nin bu özel uygulaması, çubukların konumlandırılmasında çok az esneklik sağlar. İstenen görünümü en az çabayla üretmenin bir yolu, çubukların ortalanması için her çubuğun tabanına görünmez bir kategori eklemektir. Küçük bir düşünce, her bir çubuğu ortalamak için gereken sahte sayının, çubuğun toplam uzunluğunun ve en uzun çubuğun ortalaması olması gerektiğini gösterir. Bu örnek için bu, değerleri içeren bir başlangıç sütunu olabilir
254478.0 0.0 301115.0 897955.0 993610.5 1019817.0
Sonuçta sahte verileri açık gri renkte gösteren yığılmış çubuk grafik:
İstenen şekil, sahte sütun grafiklerini görünmez yaparak oluşturulur:
Çizimin Grafik Gramer açıklamasının değişmesi gerekmez: aynı açıklamaya göre oluşturulması için farklı bir olasılık tablosu sağladık (ve sahte sütun için varsayılan renk atamasını geçersiz kıldık).
Yorumlar
Bu grafikler dürüst: her bir renkli yamanın yatay boyutu, bozulma olmadan temel verilerle doğru orantılıdır. Bunları orijinalle karşılaştırmak (soruda), bozulmasının ne kadar aşırı olduğunu ortaya çıkarır (Tufte'nin Lie Faktörü ).
"Dönüşüm hunisinin" altında ayrıntıların gösterilmesi isteniyorsa, sayıları uzunluk yerine alana göre göstermeyi düşünün . Çubukların uzunluklarını, toplam uzunlukların kare kökleriyle orantılı ve genişliklerini (dikey yönde) kare köklerle orantılı yapabilirsiniz. Şimdi, "huninin" dibi, dört yüzüncüsünden ziyade en uzun uzunluğunun yirmide biri olacak ve bazı ayrıntıların gösterilmesine izin verecekti. Ne yazık ki, ggplot2
uygulama, bir değişkenin çubuk genişliğine eşlenmesine izin vermez ve bu nedenle daha kapsamlı bir çözüm gerektirir (aslında her bir dikdörtgeni ayrı ayrı tanımlayan). Belki de daha esnek bir Python uygulaması vardır.
Referanslar
Edward Tufte, Nicel Bilgilerin Görsel Gösterimi . Cheshire Yayınları 1984.
Leland Wilkinson, Grafik Grameri. Springer 2005.