Halka Açık Veri Setleri


167

Veri bilimindeki yaygın sorunlardan biri, bir şekilde temizlenmiş (yarı yapılandırılmış) bir biçimde çeşitli kaynaklardan veri toplamak ve daha yüksek düzeyde bir analiz yapmak için çeşitli kaynaklardan gelen ölçümleri birleştirmek. Diğer insanların çabalarına, özellikle de bu sitedeki diğer sorulara baktığımızda, bu alandaki birçok insanın tekrarlayan işler yaptığını gösteriyor. Örneğin, tweet'leri, facebook gönderilerini, Wikipedia makalelerini vb. Analiz etmek büyük veri problemlerinin bir parçasıdır.

Bu veri kümelerinin bazılarına, sağlayıcı site tarafından sağlanan genel API'ler kullanılarak erişilebilir, ancak genellikle bu API'lerden bazı değerli bilgiler veya ölçümler eksiktir ve herkes aynı analizleri tekrar tekrar yapmak zorundadır. Örneğin, kümelenme kullanıcıları farklı kullanım durumlarına ve özelliklerin seçimine bağlı olabilir, ancak Twitter / Facebook kullanıcılarının temel bir kümelenmesine sahip olmak, API tarafından sağlanmayan veya bağımsız veri kümelerinde halka açık olmayan birçok Büyük Veri uygulamasında yararlı olabilir. .

Diğer büyük veri sorunlarının çözümünde yeniden kullanılabilecek değerli veri kümeleri içeren herhangi bir endeks veya halka açık veri kümesi barındırma sitesi var mı? Veri bilimi için GitHub (veya bir grup site / genel veri kümesi veya en azından kapsamlı bir liste) gibi bir şey demek istiyorum. Değilse, veri bilimi için böyle bir platform bulunmamasının sebepleri nelerdir? Verinin ticari değeri, veri kümelerini sık sık güncellemeniz gerekir, ...? Veri bilimciler için tasarlanan veri setlerini paylaşmak için açık kaynaklı bir model bulamaz mıyız?


18
Bu soru özel açık verilerde daha uygun olabilir . Bu, "veri için Git" olmayı isteyen dat için parmaklarımı çarptım dedi.
ojdo

2
@ojdo Teşekkürler, daha önce hiç açık veri duymamıştım. Daha önce de bu ilginç (ve çok benzer) soruyu orada buldum .
Amir Ali Akbari


Tipik Business Intelligence uygulamaları için iyi ve kapsamlı bir veri seti bulamadım. Resmi Microsoft'tan Perakende Endüstrisi için Microsoft Contoso BI Demo Veri kümesi Yükleme Merkezi indir bazı Microsoft ürünleri (bkz ile çalışır SharePoint ve Diğer İş Yazılım AndyGett ), ama herhangi bir düz sql veya onun csv döker, ne de herhangi bir lisans bilgisi görmüyorum .
nealmcb

1
Açık Veri Yığın Değişim Borsasına katıldınız mı? opendata.stackexchange.com
sss4r

Yanıtlar:


87

Aslında, farklı girişimler / kaynaklar tarafından desteklenen kamuya açık veri kümelerinin çok makul bir listesi bulunmaktadır.

Bazıları aşağıdadır:

Şimdi, sorunuzla ilgili iki husus. Birincisi, veritabanı paylaşım politikaları ile ilgili. Kişisel deneyimlerden, gizlilik kısıtlamaları (bazı sosyal ağ bilgileri için olduğu gibi) veya devlet bilgileriyle (sağlık sistemi veritabanları gibi) ilgili olarak halka açıklanamayan bazı veritabanları vardır.

Başka bir nokta, veri setinin kullanımı / uygulanması ile ilgilidir. Her ne kadar bazı bazlar, uygulamanın ihtiyaçlarına göre yeniden işlenebilse de, amaca uygun olarak veri kümelerinin güzel bir şekilde düzenlenmesi harika olur . Taksonomisi sosyal grafik analizi, itemset madencilik, sınıflandırma ve olabilir diğer araştırma alanlarında çok sayıda içermelidir.


64

37

Açıkça birçok veri seti var, çoğu kişi gözden kaçırıyor, data.gov . Daha önce de belirtildiği gibi Freebase harika, bu nedenle @Rubens tarafından gönderilen tüm örnekler




25

Özellikle zaman serisi verileri için, Quandl mükemmel bir kaynaktır - (çoğunlukla) temiz zaman serilerinin kolay göz atılabilir bir dizinidir.

En havalı özelliklerinden biri açık veri hisse senedi fiyatlarıdır - yani wiki tarzında düzenlenebilen ve lisanslama ile korunmayan finansal veriler.


20

Enigma , halka açık veri kümelerinin bir deposudur. Ücretsiz planı, aylık 10k API çağrısı ile halka açık veri araması sunar. Tüm kamu veritabanları listelenmez, ancak genel durumlar için liste yeterlidir.

Akademik araştırma için kullandım ve çok zaman kazandırdı.


Bir başka ilginç veri kaynağı da Amerika Birleşik Devletleri hakkında (kongre üyeleri, coğrafi şekiller…) toplamak için veri ve araçları içeren @ Birleşik Devletler projesidir .


18

Açık Veri Sayımına işaret etmek istiyorum . Açık veri savunucularının ve dünyadaki uzmanların katkılarına dayanan Açık Bilgi Vakfı'nın bir girişimidir.

Açık Veri Sayımı'nın değeri açık, topluluğa yönelik ve ülke genelinde ve bazı durumlarda ABD gibi bazı ülkelerde şehir düzeyinde açık veri kümelerinin veritabanını toplamak ve güncellemek için sistematik bir çabadır .

Ayrıca, farklı ilgi alanlarındaki farklı ülke ve şehirleri karşılaştırma fırsatı sunar.


18

The Guardian, The British Daily tarafından web sitesinde sunulan başka bir kaynak daha var. Guardian Datablog tarafından yayınlanan veri kümelerinin hepsine ev sahipliği yapılmaktadır. Football Premier League Clubs'un hesaplarına ilişkin bilgiler, İngiltere'nin Enflasyon ve GSYİH bilgileri, Grammy ödül verileri vb.

Biraz daha kaynak. Veri kümelerinin bazıları R biçimindedir veya doğrudan R'ye veri almak için R virgülleri vardır.


17

Özel Google Arama

Veri kümeleri için Özel Google Arama’yı kullanabilirsiniz:

Google Özel Arama: Veri Kümeleri

Bu soruda belirtilenler de dahil olmak üzere 230 kaynak ve veri setinin meta kaynaklarını içerir. Lütfen arama satırına "-.gov" veya "-site.com" ekleyerek .gov ve diğer web sitelerini sonuçtan çıkarmaktan çekinmeyin. Diğer Google Arama Operatörleri çalışıyor.

Hangi web sitelerini ekleyeceğiniz konusunda fikirleriniz varsa benimle temas kurmaktan çekinmeyin.

IOGDS

Aşağıdaki hizmet, 1.000.000'den fazla genel veri kümesini kategorize etmektedir:

IOGDS: Uluslararası Açık Hükümet Veri Seti Arama


Sağladığınız özel arama bağlantısı için parametreler nelerdir? Bir web sitesi, anahtar kelime vb. Listesinde arama yapıyor mu?
Amir Ali Akbari

@AmirAliAkbari Data.gov, Quandl ve diğer büyük veri ambarları gibi kaynakları araştırır.
Anton Tarasenko

16

Geç cevap, ama burada 100+ İlginç Veri Kümesinin eklektik bir listesi

Blog yazısı eğlenceli ve okunması kolay (Üyeliğim yok). Taramayı ve yukarıdan birkaçını sıyırmaya değer:

  • 1984'ten beri yürütülen her Teksas mahkumunun son sözleri

  • 10.000 açıklamalı kedi görüntüleri

  • 2,2 milyon satranç maçı





14

Bu forumda yeniyim. Bu sorunun geç saatlerinde chiming. Herkese açık veri portallarının bir kataloğunu saklıyorum (ortak kurucusuyum). Şimdi listelenen 1000'den fazla var ve dünya genelinde uluslararası, federal, eyalet, belediye ve akademik seviyelerde portalları kapsıyor.

http://www.opengeocode.org/opendata/


14

Oldukça açık gözüktüğü gibi, bundan bahsetmediğime şaşırdım: http://www.kaggle.com sürekli yeni ve çok ilginç veri setlerine sahip. Bilgilerin bir varlık olduğu düşünülür, bu nedenle çoğu zaman şirketler bu verileri serbest bırakmak istemez (ayrıca gizlilik endişeleri). Kaggle size veri verir ve bununla iş sorunlarını çözmenizi umarlar.


14

1
Her iki veri seti / bağlantısı hakkında bize biraz bilgi verebilir misiniz? Bu gerçekten, belirli veri seti türlerini arayanların yükünü hafifletecektir. Referanslarınızın ne tür bilgilerinin eksik olduğunu görmek için diğer yayınlara göz atın.
Rubens,

11

Bahsettiğiniz gibi, API veri değil, zor kısımdır. Quandl , bu sorunu, tek bir basit, RESTful API altında halka açık 10 milyondan fazla veri seti sağlayarak çözmektedir. Programlama sizin için uygun değilse, Excel'e veri yüklemeyi çok kolaylaştıran ücretsiz bir araç vardır. Eğer Ek olarak, do programlama keyfini, birçok yerli kütüphaneler vardır R, Python, Java ve daha fazlası .





9

Listelemediğim bir diğer veri kaynağı da GDELT Projesi . Siteden:

GDELT Projesi, dünyanın hemen her köşesinden 100'ün üzerinde dilde dünyanın yayın, yazılı ve web haberlerini izliyor ve her geçen saniyede bir toplumu harekete geçiren insanları, yerleri, organizasyonları, sayıları, temaları, kaynakları ve olayları tespit ediyor. Tüm dünyada hesaplama yapmak için ücretsiz bir açık platform oluşturmak.



6

Bunun için bir github deposu yarattım. Veri kümeleri büyük değildir, ancak daha sonra büyük veri kümelerine genişletilebilecek öngörücü modelleme tekniklerini uygulamak ve araştırmak için minimal örneklerdir.

Makine Öğrenimi Problemi İncil (MLPB)

Bu repo ile ilgili harika / benzersiz şey, her sorunun [çok sınıf], [dengesiz veri], [regresyon] gibi etiketlerle etiketlenmesidir; bu da bazı sorun / veri türlerini bulmayı kolaylaştırır.



6

Tüm bu veri setlerinin yanı sıra, Hindistan ile ilgili verilerle ilgileniyorsanız. Hindistan Hükümeti'nin resmi olarak resmi sitesi

Büyük Veri Analizi ve Makine Öğrenimi için iyi kullanılabilen Hindistan hükümetinin farklı bölümlerinden gelen veri kümelerini sağlar.



4

Sadece MASS paketini R içine yüklüyoruz, birden fazla veri çerçevesine veya veri setine erişiyoruz.

install.packages ("MASS") gerektirir ("MASS")


3

Https://www.jc-bingo.com/about adresinden 3 veri kümesi

  • visitor-interests.csv 1 haftalık web erişimi loglarına dayanan toplam ziyaretçi ilgi alanları. Ziyaretçinin IP adresini, kullanıcı aracısı dizesini, ziyaretçi ülkesini, erişilen sayfa dillerini ve konuları içerir. 19,926 kayıt, 2,9 Mb.
  • user-agents.csv Popülerliğe göre sipariş edilen gerçek ziyaretçi kullanıcı aracıları. 4.826 kayıt, 716 Kb.
  • bots.csv Robot IP adresleri ve web erişim kayıtlarından çıkarılan kullanıcı aracısı dizeleri. 1.293 kayıt, 122 Kb.

3

Açıkçası, çok sayıda genel veritabanı var.

Henüz bahsedilmeyen bir tanesi, şu adresten erişilebilir olan FAO'dan (Birleşmiş Milletler Gıda ve Tarım Örgütü).

http://www.fao.org/faostat/

Dünya çapındaki ülkeler için gıda üretimi hakkında veriler içermektedir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.