İlk olarak, yazılımla birlikte verilen örnek verilerle başlamanızı tavsiye ederim. Çoğu yazılım dağıtımı, veri türleriyle uğraşmadan ve verileri algoritma için doğru biçime güreşmeden algoritmayı tanımak için kullanabileceğiniz örnek verileri içerir. Sıfırdan bir algoritma oluşturuyor olsanız bile, benzer bir uygulamadan örnekle başlayabilir ve performansı karşılaştırabilirsiniz.
İkincisi, verilerin nasıl üretildiğini ve sinyal / gürültü oranını bildiğinizde algoritmanın nasıl performans gösterdiğini anlamak için sentetik veri kümeleriyle denemenizi öneririz.
R'de, şu anda yüklü paketlerdeki tüm veri kümesini şu komutla listeleyebilirsiniz:
data(package = installed.packages()[, 1])
R paketi mlbench'in gerçek veri setleri vardır ve algoritma performansını incelemek için yararlı olan sentetik veri setleri oluşturabilir.
Python'un scikit-learn örnek verilerine sahiptir ve sentetik / oyuncak veri seti de üretir.
SAS'ın indirilebilecek eğitim veri kümesi vardır ve SPSS örnek verileri C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples yazılımıyla yüklenir
Son olarak, vahşi doğada verilere bakardım. Gerçek algoritmalarda farklı algoritmaların ve ayar parametrelerinin performansını karşılaştırırdım. Bu genellikle çok daha fazla çalışma gerektirir çünkü nadiren doğrudan algoritmalarınıza bırakabileceğiniz veri türleri ve yapıları olan veri kümesini bulacaksınız.
Vahşi doğadaki veriler için tavsiye ederim:
reddit'in Veri Kümesi Arşivi
KDnugget'ın listesi