Serbestçe kullanılabilir veri örneklerini bulma


98

Herhangi bir alt grubun özelliklerini bilmeden bir popülasyonun alt gruplarını tanımlamak ve izole etmek için veri setlerini analiz etmek ve ayrıştırmak için yeni bir yöntem üzerinde çalışıyorum. Yöntem yapay veri örnekleriyle (yani, popülasyonun alt kümelerini tanımlamak ve ayırmak amacıyla özel olarak oluşturulmuş veri kümeleri) yeterince iyi çalışsa da, onu canlı verilerle test etmeyi denemek istiyorum.

Aradığım şey serbestçe ulaşılabilir (yani gizli olmayan, özel olmayan) bir veri kaynağıdır. Tercihen, bir çift modlu veya çok modlu dağılımlar içeren veya açıkça geleneksel yollarla kolayca ayrılamayan çoklu alt gruplardan oluşan bir tanesi. Bu bilgiyi nereden bulabilirim?



4
Veri setlerini bulmaya adanmış bir soru ve cevap sitesi almak isteyebilirsiniz
Jeromy Anglim

Yanıtlar:



46


17

Dünya Bankası , oldukça fazla ilginç veri sunuyor ve son zamanlardabunun içingüzel bir API geliştirmek konusunda çok aktif.

Ayrıca, ortak proje mevcut ilginç bir listeye sahiptir.

ABD için sağlıkla ilgili veriler için Sağlık Göstergeleri Deposu başkanı .

Daniel Lemire blog noktaları dahil (çoğunlukla DB araştırmaya yönelik uyarlanmış) birkaç ilginç örneklere Kanadalı Sayımı 1880 ve sinoptik bulut raporları .

Ve bugünden itibaren (03.04.2012) US 1940 nüfus sayımı kayıtları da indirilebilir.


2
Dünya Bankası edilir ekstra mil gidiyor Stata ve R. açık veri ve haritalar ile
Fr.

13

Gapminder , sizin için yararlı olabilecek ya da olmayabilir veri setlerinin bir sayısına (son bakışta 430) sahiptir.



10

Bakılması gereken en iyi yer, Carnegie Mellon Üniversitesi Veri ve Öykü Kütüphanesi veya DASL'dir ; "temel istatistik yöntemlerinin kullanımını gösteren veri dosyalarını içerir ... İyi bir örnek, belirli bir istatistik yöntemine canlı ve alakalı bir ders verebilir. DASL öğretmenlerin öğretim için veri dosyalarını bulmalarına ve belirlemelerine yardımcı olmak için tasarlandı. DASL'nin istatistik literatüründeki veri kümeleri için bir arşiv görevi görmesini umuyoruz. "


9

R'yi başlatın ve yazın data(). Bu, arama yolundaki tüm veri kümelerini gösterecektir. Ek paketlerde birçok ek veri kümesi bulunmaktadır. Örneğin, AERpakette bazı ilginç gerçek dünya sosyal bilim veri kümeleri var .




5

Stack Exchange ağının şimdi verilere adanmış yeni bir sitesi olan Open Data (5 Mart 2015'ten itibaren beta olarak) bulunuyor. Kendisini şöyle tanımlar:

Açık Veri Yığın Değişimi , açık verilerle ilgilenen geliştiriciler ve araştırmacılar için bir soru ve cevap sitesidir. Q&A sitelerinin Stack Exchange ağının bir parçası olarak sizin tarafınızdan kurulup çalıştırılır. Sizin yardımınızla birlikte, açık verilerle ilgili her sorunun ayrıntılı yanıtlarını içeren bir kitaplık oluşturmak için birlikte çalışıyoruz.

"Açık veri", "telif hakkı, patentler veya diğer kontrol mekanizmalarından herhangi bir kısıtlama olmadan, herkesin istediği şekilde kullanması ve yeniden yayınlaması" için serbestçe kullanılabilen veri kümelerini ifade eder ( Wikipedia ). Bununla birlikte, site kapalı veri setleri taleplerine uygun görünmektedir .








2

İhtiyaçlarım için uygun bir veri seti ararken bu tartışma ile ilgili iki site arasında rastladım.

Kendisini şöyle tanımlayan Datacite.org ...

Biz amaçlayan uluslararası bir organizasyonuz:

  • Araştırma verilerine kolay erişim sağlamak
  • Araştırma verilerinin bilimsel kayıttaki yasal katkılar olarak kabul edilmesinin arttırılması ve
  • Sonuçların doğrulanmasına ve gelecekteki çalışma için yeniden amaçlanmasına izin vermek için veri arşivlemeyi destekleyin.

Kendisini tanımlayan DataBib.org ...

Databib, insanların araştırma verilerinin çevrimiçi depolarını tespit etmelerine ve bulmalarına yardımcı olan bir araçtır. Kullanıcılar ve bibliyograflar, kullanıcıların arayabileceği veri havuzlarını tanımlayan kayıtları oluşturur ve iyileştirir.

Diğerleri için bu listeye eklemeye değeceğini düşündüm.

Şimdi kendi bağlantıları içinde benim ihtiyaçlarına uygun bir şey bulmak için!


2

Quandl.com'u kontrol etmenizi şiddetle tavsiye ederim . Bu bir veri programcıları rüya görüyor. 10 milyondan fazla farklı verinin herhangi birine erişmek için çok kolay bir API sağlar. İki yönlü veya çok değişkenli veriler arıyorsunuz, bu nedenle çeşitli nüfus verilerini kontrol etmenizi öneririm, örneğin bu dünya popülasyon çizelgesi, toplamın içine giren alt bileşen ülkeleri ve bölgeleri içerir.


1
Bazı quandl verileri ücretsiz, bazıları ise "Premium" yani $ $$. Ayrıca benim API hayalim zaman serisi geceler, ncols ve çevrimiçi araziler içerir (midilli istiyorum).
denis,


1

Zaman İçinde Kullanım

Zaman içerisinde kullanıcı demografik özelliklerine sahip tüm çevrimiçi etkinlikler için veri noktaları içeren çok büyük bir Excel elektronik tablosu indirebilirsiniz. Lütfen bu elektronik tabloyu indirmeden veya kullanmadan önce İpucu Sayfasını (aşağıda) okuyun.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.