Resmi Olmayan Metin Üzerinde Adlandırılmış Varlık Tanıma için Veri Kümesi


18

Şu anda resmi olmayan metinden (tweet'lere benzer bir şey) adlandırılmış varlıkları çıkarmak için bir model eğitmek için etiketli veri kümeleri arıyorum. Büyük / küçük harf ve dilbilgisi veri kümemdeki belgelerde genellikle bulunmadığından, günümüzdeki varlık tanıma sistemleri adı verilen haber makalesi ve dergi kayıtlarından biraz daha "gayriresmi" alan dışı veri arıyorum. eğitimli.

Herhangi bir tavsiye? Şimdiye kadar sadece burada yayınlanan twitterdan 50 bin jetonları bulabildim .



@Madison Mayıs. Bir veri kümesi buldunuz mu? Benzer bir şey arıyorum. Teşekkürler.
ahoffer

U. Washington'dan twitter ner corpus ile yapmak zorunda kaldım (orijinal yazı ile bağlantılı).
Madison Mayıs


ilgili iyi açıklamalı İngilizce corpus var mı?
Achyuta nanda sahoo

Yanıtlar:


6

Anladığım kadarıyla, örnek bir veri kümesinde aradığınız özellikler şunlardır:

  1. Metin verileri
  2. Resmi olmayan, yani yazım hataları, argo ve temelde profesyonel olarak düzenlenmemiş bir şey olmalı
  3. Twitter'dan başka bir şey (Seni suçlamıyorum, Twitter, metin madenciliğinde yararlı ama aşırı kullanılmış bir örnek veri kaynağıdır)

İşte bazı öneriler:

  1. SpamAssassin corpus'tan e-postalar - hem "ham" (spam olmayan) ve spam veri kümelerinin kullanılabilir olduğunu unutmayın
  2. Sina Weibo kullanıcılarının mikrobloglarından alınan veriler olan UCI'den microblogPCU veri kümesi - not, ham metin verileri Çince ve İngilizce'nin bir karışımıdır (Çince'nin makine çevirisi yapabilir, yalnızca İngilizce'ye filtre uygulayabilir veya kullanabilirsiniz) ) gibi kullanıldı
  3. Amazon Commerce , UCI'den veri setini değerlendiriyor
  4. İçinde çanta-o-kelime veri kümesi , Enron e-postaları kullanmayı deneyin
  5. Yirmi Haber Grupları veri kümesi
  6. Bu güzel SMS spam koleksiyonu
  7. Kendi metin verilerinizi her zaman İnternet'ten kazıyabilirsiniz (ayıklayabilirsiniz); Eminim R (mevcuttur hangi dili veya kullandığınız istatistiksel paket, ama XPath tabanlı paketler değilim rvest, scrapeRbunu gerçekleştirmek için, vs) ve Python

1
Bu veri kümelerinden herhangi biri adlandırılmış varlıklarla açıklamalı mı? OP'nin aradığı şey olduğuna inanıyorum.
Bay Phil


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.