Edit III: Çok değişkenli kantitatif veri görselleştirmesinin çok güzel bir örneğini buldum ve eklemek zorunda kaldım. "Edit III (Nobel ödüllü)" başlığı altında bulabilirsiniz.
Edit II: biraz yanlış anlaşılma oldu ve verilerin amaçlanan kullanımını nasıl yorumladığımı açıklığa kavuşturmak için düzenledim. İki görüntüyü değiştirdim ve "Bununla patates kızartması ister misiniz?"
Grafikler verileri ortaya çıkarır .
Edward Tufte:
Dağınıklık ve karışıklık, bilginin nitelikleri değil tasarım başarısızlıklarıdır. Dağınıklık, içerik azaltmayı değil tasarım çözümünü gerektirir. Çoğu zaman, ayrıntı ne kadar yoğun olursa, netlik ve anlayış da o kadar fazla olur, çünkü anlam ve akıl yürütme durmaksızın BAĞLAMDIR. Az bir deliktir.
Verileri neden görselleştiriyoruz?
- Düşünme araçları
- Yoğun görmenin sonucunu göstermek
- Bir problemi anlamak, karar vermek
- Karşılaştırmaları göster, nedensellik göster
- İnanmak için nedenler sunun
Nasıl?
- verileri göster
- izleyiciyi metodoloji, grafik tasarım, grafik üretim teknolojisi veya başka bir şeyden ziyade madde hakkında düşünmeye teşvik edin
- verilerin söylediklerini bozmamak
- küçük bir alanda çok sayıda sayı sunabilir
- büyük veri kümelerini tutarlı hale getirme
- farklı veri parçalarını karşılaştırmaya teşvik edin
- verileri geniş bir genel bakıştan ince yapıya kadar çeşitli ayrıntı düzeylerinde ortaya koyar.
- oldukça açık bir amaca hizmet eder: açıklama, keşif, tablolama veya dekorasyon.
- bir veri kümesinin istatistiksel ve sözel tanımlarıyla yakından bütünleştirilmelidir.
Birkaç tanım:
Veri:
genellikle "veritabanlarında sıralanan şeyler" olarak düşünülür. Bu elbette sayılar, görüntüler, ses, video vb. Olabilir. Veriler toplanabilir, genellikle niceldir. En sade haliyle sindirimi zordur; sadece basamak duvarları. Bilirsin; Matris . Genel olarak konuşursak, bazen sahip olmadığımız şeyler en bilgilendirici olsa bile, sahip olmadığımız tüm şeyler için sıfırlardan oluşan büyük veritabanlarımız yoktur . Bu yüzden biz neyi görselleştirmek gerekir, biz yok ne olduğunu görmek için do var.
Bilgi:
verilerden çıkarabileceğiniz şeydir . Verileri bir şekilde görüntüleyerek bilgiyi toplayabiliriz . Sık kullandığım örneklerden biri, size dünya ülkelerinin bir listesini verir ve size iki kişinin eksik olduğunu söylersem, onları bu listeye göre bulmanız pek olası değildir. Ancak, bunu bir haritadaki tüm ülkeleri renklendirerek gösterirsem, Orta Afrika Cumhuriyeti ve Yeni Kaledonya'yı atladığımı hemen görürsünüz. Bu "gürültüyü azaltmak" ve bir hikayeyi mümkün olan en etkili şekilde anlatmaktır.
İnfografikler ve veri görselleştirmeleri:
Örnek infographicslarınızı aramaktan çekinmeyin. Bunun genellikle veri görselleştirme, bilgi tasarımı veya bilgi mimarisiyle eşanlamlı olarak görüldüğünü biliyorum, ama katılmıyorum. İnfografikler - bana göre , verilerin nasıl okunacağına dair bir grup önyargılı ifade içerebilen bir dizi grafik, diyagram ve çizimdir . Daha az nesnel, içerik oluşturucunun "ilgisini" çekmeyen verileri atlamak daha eğilimlidir: birisinin önceden tanımladığı bir sonuca yönlendirilirsiniz. Eğlence değerine sahiptirler ve verilerden biraz odaklanan illüstrasyonları ezici bir şekilde kullanırlar. Bu iyi ama sanırım biraz farklılaşmalıyız.
Örnekler
Büyük veri:
Büyük verilerin karmaşık verilerle aynı olmadığını unutmayın. Bu LinkedIn haritası gibi birçok veri aynı olabilir: Temel veriler aynıdır, ancak filtreler vardır (etiketleyerek). İki değişken vardır: coğrafya ve insanları meslekler / ilgi alanları / ilişkiler olarak tanımlayan bir tür etiket. Deli veri miktarı; ama sadece iki değişken.
Çok değişkenli:
Verilerin çok değişkenli görselleştirilmesine bir örnek. Bu, Charles Minard'ın Napolyon'un 1812 Rus kampanya ordusundaki erkek sayısını, hareketlerini ve dönüş yolunda karşılaştıkları sıcaklığı gösteren 1869 grafiği.
Burada büyük versiyon.
Kodu kırmak biraz zaman alır, ancak bunu yaptığınızda muhteşemdir. Ele alınan değişkenler:
- ordu büyüklüğü (canlı / ölü)
- Coğrafi konum
- yön (doğu - batı)
- sıcaklık
- zaman (tarihler)
- nedensellik (savaşlarda ve soğukta öldü)
Bu, basit, iki renkli bir haritada inanılmaz miktarda bilgi. Coğrafi kısım diğer değişkenlere yer vermek için stilize edilmiştir, ancak bunu elde etmekte sorun yaşamıyoruz.
İşte daha zor olanı. Temel evrimsel görselleştirmelere, klodogramlara, filogeniklere ve biyocoğrafya ilkelerine aşina iseniz bunu okumak çok daha kolay olacaktır. Bunu bilen insanlar için yapıldığını unutmayın, bu yüzden uzman, bilimsel bir grafiktir. İşte gösterdiği şey: Zehir kurbağalarının Güney Amerika'dan soylarının filogeografik görüntüsü. Soldaki haritalar zamanla değiştikçe ana biyocoğrafik bölgeleri gösterirken, sağdaki görüntü kurbağa soylarını biyocoğrafik kökenleri bağlamında gösterir. (Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R ve diğerleri tarafından [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], Wikimedia Commons aracılığıyla). "Kodu kırmak" çılgınca, şaşırtıcı derecede bilgilendirici.
Küçük katlar, mini grafikler:
Bunu yeterince vurgulayamıyorum: bilgileri tekrarlamanın veya ayrı ayrı görselleştirmelere bölmenin değerini asla küçümsemeyin. Bir grafiği başka bir grafikle karşılaştırmak oldukça kolay olduğu sürece, bu gayet iyi. Biz kalıp bulma makineleriyiz. Bu genellikle küçük katlar olarak adlandırılır. Bu görüntüleri oldukça hızlı bir şekilde analiz etmek için çok az sorunumuz var ve her şeyi büyük bir grafiğe sıkıştırmak, on küçük olanın daha iyi çalışacağı zaman genellikle anlamsızdır:
Bir diğeri:
Ve farklı ama tekrar eden grafikler kullanan biri:
Mini grafikler Edward Tufte tarafından üretilen ve
tamamen işleyen, tamamen özelleştirilebilir bir javascript kütüphanesi olarak geliştirilen bir terimdir . Temel olarak, metne eklenebilir, "harici" bir nesne olarak değil, metnin bir parçası olarak eklenebilen küçük grafiklerdir. Varsayılan görünüm şöyle:
Edit III (Nobel ödüllü)
Bulduğum bu veri görselleştirmesini eklemek zorunda kaldım, çok iyi: Nobel ödüllüleri gösteriyor. Hangi üniversite, hangi fakülte, konu, yıl, yaş, memleket, paylaşılıp paylaşılmadığı, derece düzeyi. Gerçekten güzel kanıtlar. Bunların tümü ölçülebilir verilerdir. Daha fazla burada.
Verileriniz
@Javi ile ilgili tüm sorular son derece önemlidir.
Yapmaya çalıştığınız şey, düşünmek için görsel bir araç yaratmak. Bunu yapmak için, en iyi kalite sinyal / gürültü oranını çıkarmalısınız. Mücadele ettiğiniz şey, farklı değişkenlere sahip verilerin bilgiyle nasıl ilişkilendirileceği . İşte bir soru: Neyin doğru olması ve neyin tam olarak doğru olması gerekir? Amaç nedir?
Çok fazla önyargısız verileri görüntülemek istediğinizi varsayacağım: Eğer herhangi bir korelasyon varsa, okuyucunun korelasyonları kendileri bulmasını istiyorsunuz. Amacınız insanlara hamburgerlerin kendileri için kötü olduğunu ya da kadınların erkeklerden daha az hamburger yediğini söylemek değil, verilerin "içerdiği" ise "görmelerine" izin vermektir (bu üç kişinin bir aile olup olmadığını hayal edin. Bütün burger yiyen grafiğe biraz bakalım).
Veri kümeniz çok küçük, hepsini bir tabloya koyabilirsiniz ve iyi olur. Ama elbette bu genel fikirle ilgilidir:
Biraz detay: zaman (yaş) soldan sağa yatay olarak gördüğümüz bir şey olma eğilimindedir (zaman çizgileri). Yukarı-aşağı olan bir şeyi ağırlıklandırın, bu nedenle x-y'nizi değiştirmek iyi bir fikir olacaktır.
1. Eşsiz, sabit varlıklar nelerdir?
2. (eh ..) değişken değişkenleri nelerdir?
- Ağırlık (kg)
- Yaş (yıl)
- Hamburger sayısı (tamsayı)
- Burger tipi (tamsayı)
Not: verileriniz tamamen birimlerden oluşur. Sayılabilir, her biri ayrı bir zihinsel ölçekte ölçülebilir. Kilo, yaş, ağırlık ve sayılar. Ve veritabanı-konuşmada, isimleri anahtardır. Uzay-zamanlı görselleştirmeler yapmaya başladığınızda, bu gerçek bir baş ağrısı haline gelir. Doğum yeri, mevcut ev vb. Eklemelisiniz.
Burada korelasyonu olan sadece ikisi hamburger sayısıdır ve bir combo olup olmadığıdır. Diğer tüm değişkenler bağımsızdır ve sadece bir tanesi sabittir (isim). Bir noktada, büyük veri kümeleriyle, isimler bile ilgisiz hale gelir ve yerini demografik, yaş, cinsiyet veya benzeri alır.
Bu küçük veri kümesiyle hepsini tek bir grafikte alabilirsiniz, örneğin şöyle:
Veya eksen ve ad-kabarcık içeriğini değiştirebilirsiniz:
Kişisel not: Bu ikisinden daha iyi olduğunu düşünüyorum, çünkü x ve y bir insanın "fiziksel" özelliklerini içerir. Buradaki baloncuklardaki değişken burger sayısıdır.
Grafiğe ek olarak pasta grafikler de ekleyebilir veya hatta yalnızca pasta grafikleriniz olabilir. Şahsen ben küçük katları hakkında belirtildiği gibi, her ikisi de olurdu:
Şununla birlikle cips ister misin?
Benim varsayım da burger-yemek oranı bilmek istedim oldu. Her öğünde hamburger bulunur. Tüm yemekler tarak değildir.
- sadece bir kişinin bazen tarak yiyip yemediğini bilmek ister miyiz?
- ya da kaç tane hamburger yemeğinin de birer kombinasyon olduğunu bilmek istiyor muyuz?
1. olursa, name / key / id öğesine uygulanan bir boolean bunu yapar.
Jane bazen karmakarışık yer mi? Doğru yanlış.
2. ise, her öğüne bir boole uygulayabiliriz :
1 adet çizburger, combomeal = true
1 adet çizburger, combomeal = true
1 çizburger, combomeal = yanlış
1 çizburger, combomeal = yanlış
1 çizburger, combomeal = yanlış
1 çizburger, combomeal = yanlış
1 çizburger, combomeal = yanlış
1 beefburger, karmakarışık = doğru
1 beefburger, karmakarışık = doğru
1 beefburger, karmakarışık = yanlış
Bu çok sıkıcı, bu yüzden aşağıdakilere ayırabiliriz:
Jane 10 hamburger yer. Bunlardan üçü kombinasyonlardır (“bununla patates kızartması ister misiniz?”).
Kombilerden biri bir beefburger menüsü.
İki kombi çizburger menüsüdür.
Gerisi tek burger. 5 peynir, iki sığır eti.
Bu grafik, bunu görselleştirmek için bir girişimdi. Bu sürümde daha net hale getirmek için pasta dilimleri tuttuk. Bununla ilgili olan şey, büyük veri kümeleri ve% uygulamasına başlamanın bir sıçrama olmamasıdır:
Ama bence en iyi yol yeniden düşünmek.
Ona bakmanın bir başka yolu, gerçekten çok basit yapmaktır. Burada hangi yaş gruplarını, hangi ağırlık gruplarını ve "sahip olmadığınız" tüm verileri bize anlatabildiğini görmek daha kolay . Sahip olduğunuz veriler alanla ilgili değildir, yalnızca birimlerdir (kg, yıl, sayılar + anahtar / kimlik / ad):
(Düzenleme: Yüzümdeki yumurta: Bu görüntüleri daha doğru olanlarla değiştirdim, "tüm yemekler burger, tüm yemekler birleşik değil")
Daha fazla kişiyle genişletmek oldukça kolay olurdu:
Ya da daha iyisi, 10, 20 ve 30 yaş gruplarını karşılaştırırsanız, istatistik görselleştirmeyi okumak oldukça kolay olabilir:
Ve mümkün olduğunca açık olmak gerekirse; İşte bu düşünce biçiminin bir örneği. Bu grafik Titanik'te hayatta kalanları, mürettebat, sınıf, erkek, kadın oranını göstermektedir.
Bir sürü başka çözüm olacak, bunlar sadece birkaç düşünce.
Devam edebilirdim, ama şimdi kendimi ve muhtemelen herkesi bitirdim.
Oynamak için araçlar:
Gephi
Gapminder Hans Rosling'in bu olağanüstü TED sunumuna bakın
- o adamı sevin
Google grafikleri
somvis
Raphael
MIT Sergisi (daha önce Similie olarak adlandırılıyordu)
d3
Highcharts
Daha fazla okuma:
PJ Onori; Sert savunmasında
Edward Tufte: Güzel kanıt
Edward Tufte: Bilgi tasavvur etmek
Edward Tufte: Nicel bilgilerin görsel gösterimi
Görsel Açıklamalar: İmgeler ve Miktarlar, Kanıt ve Anlatı
Bay, Alan., 2007 Teorik ve bağlamsal bir bakış açısı gösterimi Lozan, İsviçre; New York, NY: AVA Academia
Isles, C. & Roberts, R., 1997. Görünür ışık, fotoğraf ve sanatta, bilimde ve günlük sınıflandırmada Oxford Modern Sanat Müzesi.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Bilgi Görselleştirmede Okumalar: Düşünmek İçin Vizyon Kullanımı 1. baskı, Morgan Kaufmann.
Grafton, A. ve Rosenberg, D., 2010. Zaman Çizelgeleri: Zaman Çizelgesi Tarihi, Princeton Architectural Press.
Lima, M., 2011. Görsel Karmaşıklık: Bilgilerin Haritalama Desenleri, Princeton Architectural Press.
Bounford, T., 2000. Sayısal Diyagramlar: İstatistiki Bilgilerin Etkili Olarak Tasarlanması ve Sunulması 0 ed., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Güzel Görselleştirme: Uzmanların Gözüyle Verilere Bakmak 1. baskı, O'Reilly Media.
Gleick, J., 2011. Bilgi: Bir Tarih, Bir Teori, Bir Sel, Pantheon