Metin sınıflandırıcı eğitim veri kümeleri önerin


9

Bir metin sınıflandırıcısını eğitmek için hangi serbestçe kullanılabilen veri kümelerini kullanabilirim?

Onun için en alakalı içeriği önererek kullanıcılarımızın katılımını artırmaya çalışıyoruz, bu yüzden içeriğimizi önceden tanımlanmış bir kelime torbasına göre sınıflandırırsak, önceden sınıflandırılmış rastgele sayıda gönderi hakkında geri bildirim alarak içeriğine ilgi çekici bir şekilde geri dönmesini önerebiliriz. önce.

Bu bilgiyi, bu sınıflarla etiketlenmiş darbeleri önermek için kullanabiliriz. Ancak, içeriğimizle ilgili olmayan önceden tanımlanmış bir kelime torbası kullandıysak, özellik vektörü sıfırlarla dolu olacak, ayrıca kategoriler içeriğimizle alakalı olmayabilir. dolayısıyla bu nedenlerden ötürü içeriğimizi sınıflandırmayan kümelenecek başka bir çözüm denedik.

Teşekkürler :)


1
Herkesin bir veri kümesi önerebilmesi için sorununuz hakkında daha fazla ayrıntı gerektiğini düşünüyorum.
Neil Slater

3
Ne amaçla? Spam filtreleme? Duygu analizi? Net bir amaç olmadan bir veri kümesi önermek çok zordur.
18s14

@lsdr Cevaplara bakıldığında, sorunun daha fazla ayrıntıya ihtiyacı olmadığı görülüyor.
Amir Ali Akbari

@AmirAliAkbari Sanırım bir düzenlemeden sonra geldiler. Zaten yakın oyumu geri çektim.
Rubens

Bu soru için daha uygun bir yer opendata.stackexchange.com
sheldonkreger

Yanıtlar:


14

Metin sınıflandırması için bazı standart veri kümeleri 20-News grubu, Reuters (8 ve 52 sınıflı) ve WebKb'dir. Hepsini burada bulabilirsiniz .


Teşekkürler :), daha önce ziyaret ettim ama sınıflandırmaların yeterince soyut olmadığını ya da içeriğimle ilgili olmayabileceğini gördüm
Abdelmawla


5

UC Irvine tarafından burada oynamak için ücretsiz yapılmış bir dizi veri seti var . Bu veri kümeleri arasında , görevinizde size yardımcı olabilecek birkaç düzine metin veri kümesi vardır.

Bunlar bir tür genel veri kümesidir, bu nedenle amacınıza bağlı olarak, modellerinizi eğitmek için tek veri olarak kullanılmamalıdır, aksi takdirde modeliniz - çalışırken de - kaliteli sonuçlar üretmez.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.