Şu anda resmi olmayan metinden (tweet'lere benzer bir şey) adlandırılmış varlıkları çıkarmak için bir model eğitmek için etiketli veri kümeleri arıyorum. Büyük / küçük harf ve dilbilgisi veri kümemdeki belgelerde genellikle bulunmadığından, günümüzdeki varlık tanıma sistemleri adı verilen haber makalesi ve dergi kayıtlarından biraz daha "gayriresmi" alan dışı veri arıyorum. eğitimli.
Herhangi bir tavsiye? Şimdiye kadar sadece burada yayınlanan twitterdan 50 bin jetonları bulabildim .