Kendi Machine Learning uygulamalarını test etmede yararlı olan veri kümelerini nerede bulabilirim? [kapalı]


9

Şu anda bazı Makine Öğrenimi algoritmalarını kendi başıma uygulamaya çalışıyorum. Birçoğu hata ayıklamak zor olma özelliğine sahiptir, bazı hatalar programın çökmesine neden olmaz, aksine amaçlandığı gibi çalışmaz ve algoritmalar daha zayıf sonuçlar verir gibi görünür.

Uygulamaya olan güvenimi artırmanın bir yolunu istiyorum, örneğin bazı küçük veri setlerim varsa, "Algoritmalar X, Y yinelemeleri için çalıştı ve bu veri setinde Z sonuçları vardı", bu gerçekten yararlı olurdu. Bu tür veri kümelerini duyan var mı?


Bu soruyu araştırırken hangi araştırmaları yaptınız? İlk bakışta, bu algoritmaları bulmak için kullandığınız literatürün örnek veri kümeleriyle dolu olacağı düşünülebilir.
whuber

1
ML'yi çoğunlukla Üniversite dersinden, Coursea'dan, internetteki ders videolarından ve belirli konularda okuduğum birkaç makaleden biliyorum. Her yerde çok sayıda örnek veri seti olduğunu biliyorum, ancak bazı farklı ML algoritmalarının üzerlerinde nasıl performans gösterdiği hakkında bazı bilgiler arıyorum, böylece kendi uygulamalarımı doğrulayabilirim.
sjm.majewski

ICML'de son zamanlarda standart veri kümeleriyle ilgili sorun hakkında iyi bir makale vardı - bu, gerçek dünya sorunları ve gerçek dünya sorunlarının içerdiği karışıklık hakkında çok fazla düşünmenizi engelliyor. Şahsen gerçek dünya verilerini kullanmaya başladığımda bir uygulayıcı olarak yeteneğim gelişti. Bu yüzden sizi UCI gibi şeyleri bir atlama taşı veya test olarak kullanmaktan vazgeçmezsem de, ödülü göz önünde bulundurun!
Patrick Caldon

1
Ne tür bir makine öğrenimi yaptığınızı belirtmelisiniz. İkili sınıflandırma veri setleri, fonksiyon yaklaşımı (regresyon) veri setlerinden farklıdır.
Douglas Zare

Yanıtlar:


10

Gönderen UC Irvine Makine Öğrenimi Repository :

Şu anda makine öğrenimi topluluğuna hizmet olarak 223 veri setini sürdürüyoruz. Tüm veri kümelerini aranabilir arayüzümüz üzerinden görüntüleyebilirsiniz. Eski web sitemizi eski biçimi tercih edenler için kullanmaya devam ediyoruz. ... Bir veri seti bağışlamak istiyorsanız, lütfen bağış politikamıza bakın. ... Depo için de bir ayna sitesi oluşturduk.

Ayrıca, aşağıdaki MIAS veri kümesi yaygın olarak kullanılmıştır ve incelenmiştir:

Bir algoritmayı karşılaştırırken, araştırmacıların sonuçları doğrudan karşılaştırabilmeleri için standart bir test veritabanı (veri seti) kullanılması önerilir. Mamografik veritabanlarının çoğu halka açık değildir. En kolay erişilen veritabanları ve bu nedenle en sık kullanılan veritabanları, Mamografik Görüntü Analizi Derneği (MIAS) veritabanı ve Mamografi Taraması için Dijital Veritabanı'dır (DDSM). Ayrıca, şu anda yeni mamografik görüntü veritabanları geliştiren birkaç proje ve birkaç eski proje bulunmaktadır.


2
+1 Daha fazla kaynak bulmaya devam ederseniz, lütfen bu yanıtı artırmaktan çekinmeyin.
whuber

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.