Çok yüksek boyutlu sınıflandırma için ücretsiz veri seti [kapalı]


35

1000'den fazla özelliğe (veya eğriler varsa örnek noktalara) sahip sınıflandırma için serbestçe kullanılabilir veriler nelerdir?

Ücretsiz veri setleri hakkında zaten bir topluluk wiki'si var: Serbestçe kullanılabilir veri örneklerini bulma

Ancak burada daha rahat kullanılabilecek daha odaklanmış bir listeye sahip olmak güzel olurdu , ayrıca aşağıdaki kuralları öneriyorum:

  1. Veri kümesi başına bir yayın
  2. Veri kümesi kümesine bağlantı yok
  3. her veri kümesi gerekir ilişkilendirilebilir

    • bir isim (neyle ilgili olduğunu bulmak için) ve veri setine bir link (R veri setleri paket ismi ile isimlendirilebilir)

    • özelliklerin sayısı ( p diyelim ) veri kümesinin boyutu ( n diyelim ) ve etiket / sınıf sayısı ( k diyelim )

    • Deneyiminizden (kullanılan algoritmayı kelimelere yazınız) ya da kitapçıktan (bu son durumda kağıdı bağlayın) tipik bir hata oranı


+1, ancak NIPS2003'ten gelenler yalnızca train.lab'lara sahip - NIPS2003 gazetesi açıkça "doğrulama ve test seti etiketlerinin kullanılmadığını" söylüyor.
denis

Teşekkürler. NIPS hakkındaki yorum @ mbq'dan gelen cevap içindir.
Robin Girard

Buradaki herkes ikiden fazla sınıf etiketli yüksek boyutlu bir veri kümesine sahip mi?
hlin117 14:15

Yanıtlar:


3

Dorothea
n = 1950
= 100000 p (0.1 M, yarı yapay gürültü eklenir)
, k = 2 (R dengesiz 10x)
kaynaktan NIPS2003 .


Bunun 100000 özellik olduğunu nasıl açıklayabilir misiniz? Eğitim verilerine bakarım ve her satırda satır başına 2500 tam sayı olabilir.
JeremyKun

Seyrek bir dizidir, N tamsayısı, N değerinin 1 olduğu özellik anlamına gelir.


3

Dexter
n = 2600
p = 20000 (+ 53 10k suni gürültüdür)
(dengeli) k = 2
Gönderen NIPS2003 .


Anlamıyorum ... kişi başına bir set?

@ robin & @mbq Gönderim başına bir veri kümesi tutmanızı öneririm. Bu, insanlar oylamada, önerilenlerden hangisinin önerdiğini / destek verdiğini gösterebilir
Peter Smit

@Peter, Tamam, fikrini takip ediyorum, soruyu buna göre değiştirdim.
robin girard


2

Prostat (gen ifadesi dizisi)

  • k = 2
  • n = 48 + 52
  • p = 6033

Veri paketi için (diğerlerinin yanı sıra) R paketi spls kullanılabilir .

hata oranı = 3/102 ( buraya bakın ) ayrıca 1/102 hata oranı gösteren kağıt olduğunu düşünüyorum. Bunun kolay bir test olayı olduğunu söyleyebilirim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.