Veri görselleştirme örnekleri, öğretim ve araştırma için veri setleri


9

Araştırdığımız çeşitli veri-vizyon tekniklerini test etmek için kullanabileceğimiz mevcut veri kümelerini arıyorum.

R dahil olanlar gibi çeşitli kaynaklar biliyorum (deneyin plot(Orange)veya bakın burada ).

Ama bunu bir adım ileri götürmek istiyorum:

  • Bir görselleştirme aracını test etmek için en iyi gerçek dünya veri kümeleri hangileri?
  • Akademik makalelerde hangi veri kümelerini kullandınız veya veri kaydı hakkında slaytlar öğretiyorsunuz?
  • Grafiğin avantajlarını göstermek için gerçek dünyadan en iyi örnek hangisidir?

2
Çok iyi gerçek dünya veri setleri sağlayarak bağlantılı projelerin bazıları ile örnekler, (ama en çok yapmak değil maalesef): infosthetics.com
WSkid

1
Açıkça ücretsiz veri kümeleri mi arıyorsunuz?
Fomite

3
Görselleştirme bağlama ve izleyiciye (diğer şeylerin yanı sıra) bağlıdır, bu bağlamda "en iyi" nin belirsiz olduğunu gösterir. Hangi "teknikleri" araştırdığınızı belirterek daha odaklanmış ve ilgili yanıtlar alabilirsiniz.
whuber

1
@whuber Teknikleri, görselleştirmenin otomasyonu hakkında. Açıklamak için en iyisi. Kıyaslama için en iyisi.
robermorales

@EpiGrad Evet, mümkün olduğunca ücretsiz.
robermorales

Yanıtlar:


5

İnternette çok sayıda veritabanı mevcuttur. Konuya bağlı olarak farklı kaynaklar alabilirsiniz.

Örneğin, İnsani Gelişme konu alanında (http://hdrstats.undp.org/) veri kaynaklarına sahip olabilirsiniz:

http://hdrstats.undp.org/en/tables/default.html

İklim değişikliği gözlemi için (http://www.ipcc-data.org/) adresinde yüksek çözünürlüklü iklim verilerine sahip bir web vardır, örneğin:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Her iki örnek de, yayınlanmış bilimsel makalelerde kullanılan ve büyük miktarda veri içeren gerçek veriler içerir. Zaman ve / veya mekanla ilgili veriler. Bu verilerin görselleştirme olanakları sınırsızdır.


Bu muhteşem kaynaklardan olası veri kümelerinden hangisini en çok seviyorsunuz? teşekkürler
robermorales

1
Görselleştirmenin "tadı" için uygunluğa bağlıdır. Örneğin, zaman serilerini keşfetmek / göstermek için IPCC ağı yeterli veriye sahiptir ve yaygın olarak kullanılmaktadır (açıkça iklim değişikliğini analiz etmek için), İnsani Gelişme web sitesinde uzayla ilgili çok fazla veri ve bununla ilgili veriler bulunmaktadır. saati.
Jose Zubcoff

İlk bağlantınız koptu (DNS hatası).
horaceT

Ne yazık ki ilk bağlantı koptu (5 yıl sonra), ancak orada çok fazla Açık veri var: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff

9

Regresyon yaparken çizim yapmanın önemini göstermek için Anscombe veri setlerini (R'de de mevcuttur) kullanmayı seviyorum . Eğer aşina değilseniz, setlerin hepsi oldukça farklı görünse de, dört veri kümesinden de aynı regresyon hattını ve teşhisini alırsınız. Aşağıdaki grafikleri alabilir ve bir gerileme gerçekleştirdikten sonra artıklarda arayabileceğiniz sorunları göstermek için bunları artık grafiklere dönüştürebilirsiniz.

Anscombe veri setleri


Evet, bu veri kümelerini biliyorduk. İyi bir başlangıç ​​noktasıdır.
robermorales

Asıl sorun, bunun gerçek dünyadaki bir veri kümesi olmamasıdır.
robermorales

3
@robermorales, Yeterince adil, ama sorunun "saf" versiyonunu görmenin daha karışık, gerçek dünyadaki görselleştirmeleri / sorunları anlamayı kolaylaştırdığını düşünüyorum.
Charlie


4

William S. Cleveland'ın grafiklerin harika kullanımlarıyla dolu iki kitabı var ve Verileri Görselleştirmede grafikler oluşturmak için veri ve kod web sitesinde


Cleveland'ın veri setlerinden hangisini daha çok seviyorsunuz? teşekkürler
robermorales

1
@robertomorales Bence hepsi kendi amaçları için iyi seçilmiş. İstatistiksel grafiklerle ilgilenen herkes Cleveland'ı dikkatle incelemelidir.
Peter Flom

1
Verileri Görselleştirmek için veriler lib.stat.cmu.edu/datasets/visualizing.data.zip adresinde bulunabilir. Artık bunları Cleveland'ın kendi web sitesinde bulamıyorum.
Nick Cox

4

Muhtemelen bunları zaten biliyorsunuz, ama işte buradalar:

UCI Machine Learning Repositor y birçok kamuya açık, gerçek dünya veri setleri vardır.

ABD Hükümeti veri kümelerinin çoğunu data.gov adresinde kamuya açıklar .

Bazı karmaşık görselleştirme verileri istiyorsanız, bir sınıflandırma görevine bakmanızı öneririm. Bana öyle geliyor ki UCI MLR'de ayarlanan Kelimelerin Çantası bazı güzel özelliklere sahip, ama yanılmış olabilirim (kullandığımdan beri bir süredir).


Teşekkürler! Bir var çok !
robermorales

3

Burda biraz var.

Sci2 Aracı Örnek Veri Kümeleri
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Sci2 Tool ile birlikte gelen örnek veri kümeleri.

Tableau Örnek Veri Kümeleri
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Tableau ile çalışmaya başlamak için örnek veri kümeleri.

Harika Genel Veri Kümeleri
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Bu genel veri kaynakları listesi bloglardan, yanıtlardan ve kullanıcı yanıtlarından toplanır ve toplanır. Veri kümelerinin çoğu ücretsizdir, bazıları değildir.

Bu konu oldukça eskidir, bu yumruların bazı yeni katkılar elde etmesini umuyoruz!


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.