İndirmek için büyük (> 1000) metin topluluğunu arıyorum. Tercihen dünya haberleriyle veya bir tür raporla . Sadece patentli bir tane buldum. Herhangi bir öneri?
İndirmek için büyük (> 1000) metin topluluğunu arıyorum. Tercihen dünya haberleriyle veya bir tür raporla . Sadece patentli bir tane buldum. Herhangi bir öneri?
Yanıtlar:
Wikinews ne olacak ? İşte bulabildiğim en son veritabanı dökümü: http://dumps.wikimedia.org/enwikinews/20111120/
Muhtemelen "Tüm sayfalar, sadece güncel sürümler" - sürüm.
Reuters metin korpusu bu alanda bir klasik ve burada bulunabilir
http://endb-consolidated.aihit.com/datasets.htm , metin açıklamalarına sahip 10K şirketi içerir
Yenilik bir sorun değilse, deneyebilirsiniz
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
ve bütçenize bağlı olarak infochimp'de daha birçok benzer veri kümesi vardır.
Saygılar, Andy.
Önceden hesaplanmış n-gram istiyorsanız, google kitap arşivini deneyebilirsiniz: