Veri bilimindeki yaygın sorunlardan biri, bir şekilde temizlenmiş (yarı yapılandırılmış) bir biçimde çeşitli kaynaklardan veri toplamak ve daha yüksek düzeyde bir analiz yapmak için çeşitli kaynaklardan gelen ölçümleri birleştirmek. Diğer insanların çabalarına, özellikle de bu sitedeki diğer sorulara baktığımızda, bu alandaki birçok insanın tekrarlayan işler yaptığını gösteriyor. Örneğin, tweet'leri, facebook gönderilerini, Wikipedia makalelerini vb. Analiz etmek büyük veri problemlerinin bir parçasıdır.
Bu veri kümelerinin bazılarına, sağlayıcı site tarafından sağlanan genel API'ler kullanılarak erişilebilir, ancak genellikle bu API'lerden bazı değerli bilgiler veya ölçümler eksiktir ve herkes aynı analizleri tekrar tekrar yapmak zorundadır. Örneğin, kümelenme kullanıcıları farklı kullanım durumlarına ve özelliklerin seçimine bağlı olabilir, ancak Twitter / Facebook kullanıcılarının temel bir kümelenmesine sahip olmak, API tarafından sağlanmayan veya bağımsız veri kümelerinde halka açık olmayan birçok Büyük Veri uygulamasında yararlı olabilir. .
Diğer büyük veri sorunlarının çözümünde yeniden kullanılabilecek değerli veri kümeleri içeren herhangi bir endeks veya halka açık veri kümesi barındırma sitesi var mı? Veri bilimi için GitHub (veya bir grup site / genel veri kümesi veya en azından kapsamlı bir liste) gibi bir şey demek istiyorum. Değilse, veri bilimi için böyle bir platform bulunmamasının sebepleri nelerdir? Verinin ticari değeri, veri kümelerini sık sık güncellemeniz gerekir, ...? Veri bilimciler için tasarlanan veri setlerini paylaşmak için açık kaynaklı bir model bulamaz mıyız?