Temel makine öğrenme algoritmalarını öğrenmek için bazı iyi veri kümeleri nelerdir ve neden?


19

Makine öğrenimi konusunda yeniyim ve farklı makine öğrenme algoritmaları (Karar Ağaçları, Yükseltme, SVM ve Sinir Ağları) arasındaki farkları karşılaştırabildiğim ve karşılaştırdığım bazı veri kümeleri arıyorum.

Bu tür veri kümelerini nerede bulabilirim? Veri kümesini düşünürken nelere dikkat etmeliyim?

Bazı iyi veri kümelerine işaret edebilir ve ayrıca onları iyi bir veri kümesi yapan şeyin ne olduğunu söyleyebilirseniz harika olur.


6
Bu sorunun opendata.stackexchange.com için daha uygun olmadığını merak ediyorum ... Veri kümeleri hakkında olduğu gibi, çoğu ders kitabı bu veri kümelerinden bahseder ve bunları kullanılabilir hale getirir, birçokları istatistiksel yazılımlarda veya bu tür yazılımlar için kütüphanelerde mevcuttur. Ayrıca archive.ics.uci.edu/ml/datasets.html adresini de görebilirsiniz . Tabii ki, başka bir soru bazı veri kümelerini öğrenme için "iyi" ve bazı "kötü" yapan şeydir - ilginç bir sorudur.
Tim

EANStatLearn ve diğerleri gibi CRAN'da bazı veri kümelerini paketler halinde bulabilirsiniz.
kjetil b halvorsen

2
@Tim Bu sorunun pedagojik bir yönü olduğundan (örneğin, öğrenme amaçlı "iyi" bir veri kümesinin bir örneği, farklı algoritmaların çok farklı sonuçlar verdiği yerleri gösteren bir örnek) CV'ye OpenData'dan daha uygun olduğunu düşünüyorum.
Silverfish

2
Pedagojik bir bakış açısından veri kümeleri hakkındaki soruların kesinlikle burada konu olduğunu düşünüyorum: örneğin “İris” veri kümesinin hangi yönleri onu örnek / öğretim / test veri kümesi olarak başarılı kılar ; Datasets Anscombe en dörtlüsünün benzer bir amaç için inşa
Gümüş Balık

@Silverfish: Bu Meta - “Veri Kümeleri Hakkında Sorular”: Olası İstisnalar? - Ve sizin bakış açınızla genel bir mutabakat var gibi görünüyor. Ama hala bu q. oldukça geniştir - onu serbestçe kullanılabilir veri örneklerini bulmaktan ayıran nedir?
Scortchi - Monica'yı eski durumuna döndürün

Yanıtlar:


16

Aşağıdaki sitelerdeki veri setleri ücretsiz olarak kullanılabilir. Bu veri kümeleri, öğrencilere ML algoritmalarını öğretmek için kullanılmıştır, çünkü çoğu için veri kümeleriyle ilgili açıklamalar vardır. Ayrıca, hangi tür algoritmaların geçerli olduğu da belirtilmiştir.

  1. UCI- Makine Öğrenimi deposu
  2. ML Comp
  3. Mammo Görüntüsü
  4. Mulan

11

Kaggle , pratik yapmak için kullanabileceğiniz bir dizi veri kümesine sahiptir.

(Şimdiye kadar bahsedilmediğine şaşırdım!)

Oldukça paha biçilmez bir kaynak yapan iki şey var (diğerleri arasında):

  • Çok temiz veri setleri. Gürültüsüz veri kümeleri gerçek dünyadaki veri kümelerini gerçekten temsil etmese de, özellikle sizin amaçlarınıza uygundur - ML algoritmalarını dağıtmak.
  • Aynı veri seti için başkalarının ML modellerini de görüntüleyebilirsiniz, bu da yol boyunca bazı hack'leri almak için eğlenceli bir yol olabilir. En iyi uygulayıcılardan öğrenmekten elde ettiğiniz maruz kalma türünün, her şey için olduğu gibi, süper yararlı olduğunu söylemeye gerek yok.

1
Bu gerçekten en iyi cevap olmalı, çünkü çok çeşitli veri kümelerine ek olarak, her meydan okuma için forumlar, kod örnekleriyle birlikte teknik ve hileleri toplamak için paha biçilmez bir kaynaktır.
Alex R.14

2

İlk olarak, yazılımla birlikte verilen örnek verilerle başlamanızı tavsiye ederim. Çoğu yazılım dağıtımı, veri türleriyle uğraşmadan ve verileri algoritma için doğru biçime güreşmeden algoritmayı tanımak için kullanabileceğiniz örnek verileri içerir. Sıfırdan bir algoritma oluşturuyor olsanız bile, benzer bir uygulamadan örnekle başlayabilir ve performansı karşılaştırabilirsiniz.

İkincisi, verilerin nasıl üretildiğini ve sinyal / gürültü oranını bildiğinizde algoritmanın nasıl performans gösterdiğini anlamak için sentetik veri kümeleriyle denemenizi öneririz.

R'de, şu anda yüklü paketlerdeki tüm veri kümesini şu komutla listeleyebilirsiniz:

data(package = installed.packages()[, 1])

R paketi mlbench'in gerçek veri setleri vardır ve algoritma performansını incelemek için yararlı olan sentetik veri setleri oluşturabilir.

Python'un scikit-learn örnek verilerine sahiptir ve sentetik / oyuncak veri seti de üretir.

SAS'ın indirilebilecek eğitim veri kümesi vardır ve SPSS örnek verileri C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples yazılımıyla yüklenir

Son olarak, vahşi doğada verilere bakardım. Gerçek algoritmalarda farklı algoritmaların ve ayar parametrelerinin performansını karşılaştırırdım. Bu genellikle çok daha fazla çalışma gerektirir çünkü nadiren doğrudan algoritmalarınıza bırakabileceğiniz veri türleri ve yapıları olan veri kümesini bulacaksınız.

Vahşi doğadaki veriler için tavsiye ederim:

reddit'in Veri Kümesi Arşivi

KDnugget'ın listesi


1
R olmayanlar ve sadece bu veri kümelerine erişmek için indirmek istemeyenler için, veri kümeleri ve açıklamaları burada çevrimiçi olarak mevcuttur .
gung - Monica'yı eski durumuna getirin

0

İris veri seti eller aşağı. Aynı zamanda R üssünde de var.


1
Lütfen sorunun önemli bir kısmına yanıt verin: "... bana neyin iyi bir veri kümesi yaptığını da söyle?"
whuber

0

Bence, çok fazla özelliği olmayan küçük veri kümeleriyle başlamalısınız.

Bir örnek Iris veri kümesi (sınıflandırma için) olacaktır. Her sınıf için toplam 150 veri noktası olan 3 sınıf, 50 örnek vardır. Bu veri kümesini keşfetmenize yardımcı olacak mükemmel bir kaynak, Data School'un bu video serisidir .

Ödeme için başka bir veri kümesi, UCI-ML deposundan Şarap Kalitesi verileridir. 12 özelliğe sahip 4898 veri noktasına sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.