Halka Açık Veri Setleri

167

Veri bilimindeki yaygın sorunlardan biri, bir şekilde temizlenmiş (yarı yapılandırılmış) bir biçimde çeşitli kaynaklardan veri toplamak ve daha yüksek düzeyde bir analiz yapmak için çeşitli kaynaklardan gelen ölçümleri birleştirmek. Diğer insanların çabalarına, özellikle de bu sitedeki diğer sorulara baktığımızda, bu alandaki birçok insanın tekrarlayan işler yaptığını gösteriyor. Örneğin, tweet'leri, facebook gönderilerini, Wikipedia makalelerini vb. Analiz etmek büyük veri problemlerinin bir parçasıdır.

Bu veri kümelerinin bazılarına, sağlayıcı site tarafından sağlanan genel API'ler kullanılarak erişilebilir, ancak genellikle bu API'lerden bazı değerli bilgiler veya ölçümler eksiktir ve herkes aynı analizleri tekrar tekrar yapmak zorundadır. Örneğin, kümelenme kullanıcıları farklı kullanım durumlarına ve özelliklerin seçimine bağlı olabilir, ancak Twitter / Facebook kullanıcılarının temel bir kümelenmesine sahip olmak, API tarafından sağlanmayan veya bağımsız veri kümelerinde halka açık olmayan birçok Büyük Veri uygulamasında yararlı olabilir. .

Diğer büyük veri sorunlarının çözümünde yeniden kullanılabilecek değerli veri kümeleri içeren herhangi bir endeks veya halka açık veri kümesi barındırma sitesi var mı? Veri bilimi için GitHub (veya bir grup site / genel veri kümesi veya en azından kapsamlı bir liste) gibi bir şey demek istiyorum. Değilse, veri bilimi için böyle bir platform bulunmamasının sebepleri nelerdir? Verinin ticari değeri, veri kümelerini sık sık güncellemeniz gerekir, ...? Veri bilimciler için tasarlanan veri setlerini paylaşmak için açık kaynaklı bir model bulamaz mıyız?

open-source dataset

— Amir Ali Akbari
kaynak

18

Bu soru özel açık verilerde daha uygun olabilir . Bu, "veri için Git" olmayı isteyen dat için parmaklarımı çarptım dedi.

— ojdo

2

@ojdo Teşekkürler, daha önce hiç açık veri duymamıştım. Daha önce de bu ilginç (ve çok benzer) soruyu orada buldum .

— Amir Ali Akbari

2

Bkz. Quora.com/Nerede-can-I-find-large-datasets-open-to-public .

— Piotr Migdal

Tipik Business Intelligence uygulamaları için iyi ve kapsamlı bir veri seti bulamadım. Resmi Microsoft'tan Perakende Endüstrisi için Microsoft Contoso BI Demo Veri kümesi Yükleme Merkezi indir bazı Microsoft ürünleri (bkz ile çalışır SharePoint ve Diğer İş Yazılım AndyGett ), ama herhangi bir düz sql veya onun csv döker, ne de herhangi bir lisans bilgisi görmüyorum .

— nealmcb

1

Açık Veri Yığın Değişim Borsasına katıldınız mı? opendata.stackexchange.com

— sss4r

87

Aslında, farklı girişimler / kaynaklar tarafından desteklenen kamuya açık veri kümelerinin çok makul bir listesi bulunmaktadır.

Bazıları aşağıdadır:

Amazon İnternet Hizmetlerinde Genel Veri Setleri ;
Sık Kullanılan Kalem Seti Madenciliği Uygulama Deposu ;
UCI Makine Öğrenim Deposu ;
KDnuggets - çok sayıda kamu havuzunun büyük bir listesi.

Şimdi, sorunuzla ilgili iki husus. Birincisi, veritabanı paylaşım politikaları ile ilgili. Kişisel deneyimlerden, gizlilik kısıtlamaları (bazı sosyal ağ bilgileri için olduğu gibi) veya devlet bilgileriyle (sağlık sistemi veritabanları gibi) ilgili olarak halka açıklanamayan bazı veritabanları vardır.

Başka bir nokta, veri setinin kullanımı / uygulanması ile ilgilidir. Her ne kadar bazı bazlar, uygulamanın ihtiyaçlarına göre yeniden işlenebilse de, amaca uygun olarak veri kümelerinin güzel bir şekilde düzenlenmesi harika olur . Taksonomisi sosyal grafik analizi, itemset madencilik, sınıflandırma ve olabilir diğer araştırma alanlarında çok sayıda içermelidir.

— Rubens
kaynak

64

Güncelleme:

Modern veri bilimi ve makine öğrenimi meraklılarının evi olan Kaggle.com :) veri kümelerinin kendi deposunu açtı .

Listelenen kaynaklara ek olarak.

Bazı sosyal ağ veri kümeleri:

İstatistikler SE'de listelenen çok sayıda kaynak vardır:

— IharS
kaynak

37

Açıkça birçok veri seti var, çoğu kişi gözden kaçırıyor, data.gov . Daha önce de belirtildiği gibi Freebase harika, bu nedenle @Rubens tarafından gönderilen tüm örnekler

— MCP_infiltrator
kaynak

35

Freebase , pek çok ilginç konu içeren ve makine tarafından okunabilen formatta yaklaşık 2,5 milyar gerçek içeren ücretsiz, topluluk destekli bir veritabanıdır. Veri sorgularını gerçekleştirmek için iyi bir API'ye de sahiptir.

İşte açık veri setlerinin derlenmiş bir listesi: http://www.datapure.co/open-data-sets

— rev konstantin V. Salikhov
kaynak

Freebase kapanıyor ve veri tabanı yakında Wikidata'ya taşınacak .

— cynddl

31

Aşağıdaki bağlantılar kullanılabilir

— Jakubee
kaynak

25

Özellikle zaman serisi verileri için, Quandl mükemmel bir kaynaktır - (çoğunlukla) temiz zaman serilerinin kolay göz atılabilir bir dizinidir.

En havalı özelliklerinden biri açık veri hisse senedi fiyatlarıdır - yani wiki tarzında düzenlenebilen ve lisanslama ile korunmayan finansal veriler.

— azza-bazoo
kaynak

20

Enigma , halka açık veri kümelerinin bir deposudur. Ücretsiz planı, aylık 10k API çağrısı ile halka açık veri araması sunar. Tüm kamu veritabanları listelenmez, ancak genel durumlar için liste yeterlidir.

Akademik araştırma için kullandım ve çok zaman kazandırdı.

Bir başka ilginç veri kaynağı da Amerika Birleşik Devletleri hakkında (kongre üyeleri, coğrafi şekiller…) toplamak için veri ve araçları içeren @ Birleşik Devletler projesidir .

— cynddl
kaynak

18

Açık Veri Sayımına işaret etmek istiyorum . Açık veri savunucularının ve dünyadaki uzmanların katkılarına dayanan Açık Bilgi Vakfı'nın bir girişimidir.

Açık Veri Sayımı'nın değeri açık, topluluğa yönelik ve ülke genelinde ve bazı durumlarda ABD gibi bazı ülkelerde şehir düzeyinde açık veri kümelerinin veritabanını toplamak ve güncellemek için sistematik bir çabadır .

Ayrıca, farklı ilgi alanlarındaki farklı ülke ve şehirleri karşılaştırma fırsatı sunar.

— tomaskazemekas
kaynak

18

The Guardian, The British Daily tarafından web sitesinde sunulan başka bir kaynak daha var. Guardian Datablog tarafından yayınlanan veri kümelerinin hepsine ev sahipliği yapılmaktadır. Football Premier League Clubs'un hesaplarına ilişkin bilgiler, İngiltere'nin Enflasyon ve GSYİH bilgileri, Grammy ödül verileri vb.

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Biraz daha kaynak. Veri kümelerinin bazıları R biçimindedir veya doğrudan R'ye veri almak için R virgülleri vardır.

http://www.inside-r.org/howto/finding-data-internet

— Binga
kaynak

17

Özel Google Arama

Veri kümeleri için Özel Google Arama’yı kullanabilirsiniz:

Google Özel Arama: Veri Kümeleri

Bu soruda belirtilenler de dahil olmak üzere 230 kaynak ve veri setinin meta kaynaklarını içerir. Lütfen arama satırına "-.gov" veya "-site.com" ekleyerek .gov ve diğer web sitelerini sonuçtan çıkarmaktan çekinmeyin. Diğer Google Arama Operatörleri çalışıyor.

Hangi web sitelerini ekleyeceğiniz konusunda fikirleriniz varsa benimle temas kurmaktan çekinmeyin.

IOGDS

Aşağıdaki hizmet, 1.000.000'den fazla genel veri kümesini kategorize etmektedir:

IOGDS: Uluslararası Açık Hükümet Veri Seti Arama

— Anton Tarasenko
kaynak

Sağladığınız özel arama bağlantısı için parametreler nelerdir? Bir web sitesi, anahtar kelime vb. Listesinde arama yapıyor mu?

— Amir Ali Akbari

@AmirAliAkbari Data.gov, Quandl ve diğer büyük veri ambarları gibi kaynakları araştırır.

— Anton Tarasenko

16

Geç cevap, ama burada 100+ İlginç Veri Kümesinin eklektik bir listesi

Blog yazısı eğlenceli ve okunması kolay (Üyeliğim yok). Taramayı ve yukarıdan birkaçını sıyırmaya değer:

1984'ten beri yürütülen her Teksas mahkumunun son sözleri
10.000 açıklamalı kedi görüntüleri
2,2 milyon satranç maçı

— philshem
kaynak

15

Bu veriyi Data Science Central'da ücretsiz veri setleri listesiyle buldum: Ücretsiz olarak kullanılabilen büyük veri setleri

— lafdez
kaynak

15

PUMA Benchmarkları ve veri seti indirmelerini biliyor muydunuz? https://sites.google.com/site/farazahmad/pumadatasets

Aşağıdakileri içerir:

TeraSort
Vikipedi
Liste öğesi
Kendinden Üyelik
Bitişiklik-List
Filmler veritabanı
Sırada-Ters-Index

— algarecu
kaynak

15

İngiltere Hükümeti, hükümet daireleri boyunca toplanan mükemmel bir kişisel olmayan veri kaynağı sağlar: http://data.gov.uk

— Federer
kaynak

14

Bu forumda yeniyim. Bu sorunun geç saatlerinde chiming. Herkese açık veri portallarının bir kataloğunu saklıyorum (ortak kurucusuyum). Şimdi listelenen 1000'den fazla var ve dünya genelinde uluslararası, federal, eyalet, belediye ve akademik seviyelerde portalları kapsıyor.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
kaynak

14

Oldukça açık gözüktüğü gibi, bundan bahsetmediğime şaşırdım: http://www.kaggle.com sürekli yeni ve çok ilginç veri setlerine sahip. Bilgilerin bir varlık olduğu düşünülür, bu nedenle çoğu zaman şirketler bu verileri serbest bırakmak istemez (ayrıca gizlilik endişeleri). Kaggle size veri verir ve bununla iş sorunlarını çözmenizi umarlar.

— Veri deposu
kaynak

14

Veri Kümeleri

Akademik Torrentler
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
GeoLite Legacy İndirilebilir Veritabanları
Quora'nın Büyük Veri Kümeleri Cevabı
Genel Büyük Veri Kümeleri
Houston Veri Portalı
Kaggle Veri Kaynakları
İnsan Genetik Varyasyonunun Derin Kataloğu
Tanınmış kişilerin, yerlerin ve şeylerin topluluğa yönelik bir veritabanı
Google Genel Verileri
Dünya Bankası Verileri
NYC Taksi verileri
Açık Veri Philly İnsanları Philadelphia için verilerle bağlamak
Ağ Havuzu 20'den fazla koleksiyonda 600'den fazla ağ içeren etkileşimli bir veri deposu; büyük ölçekli sosyal ağlardan, web grafiklerinden, biyolojik ağlardan, iletişim ve teknolojik ağlardan vb.
Yararlı kaynakların listesi Bir blog yazısı birçok veri kümesi veritabanını içerir

Veri Kümeleri itibaren müthiş-datascience

— chenrui333
kaynak

1

Her iki veri seti / bağlantısı hakkında bize biraz bilgi verebilir misiniz? Bu gerçekten, belirli veri seti türlerini arayanların yükünü hafifletecektir. Referanslarınızın ne tür bilgilerinin eksik olduğunu görmek için diğer yayınlara göz atın.

— Rubens,

11

Bahsettiğiniz gibi, API veri değil, zor kısımdır. Quandl , bu sorunu, tek bir basit, RESTful API altında halka açık 10 milyondan fazla veri seti sağlayarak çözmektedir. Programlama sizin için uygun değilse, Excel'e veri yüklemeyi çok kolaylaştıran ücretsiz bir araç vardır. Eğer Ek olarak, do programlama keyfini, birçok yerli kütüphaneler vardır R, Python, Java ve daha fazlası .

— Brian Risk
kaynak

11

Muhtemelen hiç bitmeyen bir listeye eklemek için:

cyndd tarafından belirtildiği gibi, orada vikiveri ,

ve yapılandırılmış bilgi birikimi için Wolfram Alpha .

— image_doctor
kaynak

11

Bu koleksiyona Github'da rastladım. Koleksiyon da kategorilere ayrılmıştır.

https://github.com/caesar0301/awesome-public-datasets

Ve ilgili bölüm için

Veri bilimcileri için tasarlanan veri setlerini paylaşmak için açık kaynaklı bir model olamaz mı?

Pırasa grup rehberine veri paylaşımına başvurabilirsiniz .

— Shagun Sodhani
kaynak

10

Tüm hükümet verileri data.gov'da listelenmiyor. - Sunlight Foundation , Şubat ayında mevcut veri kümelerini açıklayan bir dizi elektronik tablo hazırladı .

— Steve Kallestad
kaynak

9

Listelemediğim bir diğer veri kaynağı da GDELT Projesi . Siteden:

GDELT Projesi, dünyanın hemen her köşesinden 100'ün üzerinde dilde dünyanın yayın, yazılı ve web haberlerini izliyor ve her geçen saniyede bir toplumu harekete geçiren insanları, yerleri, organizasyonları, sayıları, temaları, kaynakları ve olayları tespit ediyor. Tüm dünyada hesaplama yapmak için ücretsiz bir açık platform oluşturmak.

— dvdnglnd
kaynak

8

Bu altreddit, birçok bilinen Veri Kümesini listeler.

Reddit Veri Kümeleri

Bu alt dizin üzerinde, bazıları yanıtlanan birçok veri kümesi isteği var.

— Bazı adam
kaynak

6

Bunun için bir github deposu yarattım. Veri kümeleri büyük değildir, ancak daha sonra büyük veri kümelerine genişletilebilecek öngörücü modelleme tekniklerini uygulamak ve araştırmak için minimal örneklerdir.

Makine Öğrenimi Problemi İncil (MLPB)

Bu repo ile ilgili harika / benzersiz şey, her sorunun [çok sınıf], [dengesiz veri], [regresyon] gibi etiketlerle etiketlenmesidir; bu da bazı sorun / veri türlerini bulmayı kolaylaştırır.

— Ben
kaynak

6

Eurostats http://ec.europa.eu/eurostat ve Avrupa Merkez Bankası https://www.ecb.europa.eu/stats/html/index.en.html benim sık sık kullandığım çok çeşitli veri setleri iş projeleri.

— Juha
kaynak

6

Tüm bu veri setlerinin yanı sıra, Hindistan ile ilgili verilerle ilgileniyorsanız. Hindistan Hükümeti'nin resmi olarak resmi sitesi

https://data.gov.in/

Büyük Veri Analizi ve Makine Öğrenimi için iyi kullanılabilen Hindistan hükümetinin farklı bölümlerinden gelen veri kümelerini sağlar.

— Gaurav
kaynak

4

Yahoo sadece araştırma topluluğu için büyük bir veri kümesi yayınladı . Tadını çıkar!

— Kasra Manshaei
kaynak

4

Sadece MASS paketini R içine yüklüyoruz, birden fazla veri çerçevesine veya veri setine erişiyoruz.

install.packages ("MASS") gerektirir ("MASS")

— dileep balineni
kaynak

3

Https://www.jc-bingo.com/about adresinden 3 veri kümesi

visitor-interests.csv 1 haftalık web erişimi loglarına dayanan toplam ziyaretçi ilgi alanları. Ziyaretçinin IP adresini, kullanıcı aracısı dizesini, ziyaretçi ülkesini, erişilen sayfa dillerini ve konuları içerir. 19,926 kayıt, 2,9 Mb.
user-agents.csv Popülerliğe göre sipariş edilen gerçek ziyaretçi kullanıcı aracıları. 4.826 kayıt, 716 Kb.
bots.csv Robot IP adresleri ve web erişim kayıtlarından çıkarılan kullanıcı aracısı dizeleri. 1.293 kayıt, 122 Kb.

— Yuri
kaynak

3

Açıkçası, çok sayıda genel veritabanı var.

Henüz bahsedilmeyen bir tanesi, şu adresten erişilebilir olan FAO'dan (Birleşmiş Milletler Gıda ve Tarım Örgütü).

http://www.fao.org/faostat/

Dünya çapındaki ülkeler için gıda üretimi hakkında veriler içermektedir.

— setempler
kaynak