Bir yazılım projesinde kullanmak için İngilizce dilinde kullanılan karakter veya kelime dizileri hakkında istatistik toplamaya çalışıyorum.
Çok sayıda konuyu kapsayan büyük miktarda İngilizce (birkaç GB iyi olurdu) nereden bulabilirim?
Bir yazılım projesinde kullanmak için İngilizce dilinde kullanılan karakter veya kelime dizileri hakkında istatistik toplamaya çalışıyorum.
Çok sayıda konuyu kapsayan büyük miktarda İngilizce (birkaç GB iyi olurdu) nereden bulabilirim?
Yanıtlar:
Wikipedia'nın veri dökümlerini kullanabilirsiniz . İngilizce Vikipedi için XML veri dökümü ben senin araştırma için iyi bir başlangıç olacağını söyleyebilirim bu yüzden şimdiki revizyonla birlikte, sadece 31 GB hakkındadır. Veri dökümü oldukça büyük olduğundan, bir SAX ayrıştırıcısıyla XML'den metinleri çıkarmayı düşünmelisiniz. WikiXMLJ , Wikipedia için ayarlanmış kullanışlı bir Java API'sidir .
Ve sonra, elbette, her zaman Stack Exchange veri dökümleri vardır . En sonuncusu , Eylül 2011'e kadar herkese açık beta olmayan tüm Stack Exchange sitelerini ve ilgili Meta sitelerini içerir. Ancak, doğal olarak Stack Exchange yayınları her sitenin kapsamına odaklanmıştır, bu yüzden muhtemelen istediğiniz kadar genelleştirilmemiştir. Meta yayınlar biraz daha genel, bu yüzden Wikipedia'ya ek olarak bunları da düşünebilirsiniz.
Özellikle düz metinde daha iyi bir şey bulacağınızı sanmıyorum. Veri Merkezi aracılığıyla birkaç açık veri kümesi kullanılabilir , ancak İngilizce Wikipedia veri dökümü aradığınıza çok yakın olduğunu düşünüyorum.
Google'ın n-gram olasılıklarını belirlemek için kullandıkları veri kümeleri koleksiyonu vardır. Bigram (2 gram) veri kümelerini incelemek size iyi bir resim vermelidir. Bu analizlerin daha önce yapıldığı başka birçok corpi var.
Gutenberg Projesi , halihazırda metin biçiminde İngilizce büyük bir metin topluluğuna sahiptir.
Project Gutenberg 42.000'den fazla ücretsiz e-kitap sunuyor: ücretsiz epub kitapları, ücretsiz kindle kitapları arasından seçim yapın, indirin veya çevrimiçi okuyun.
Yüksek kaliteli e-kitaplar taşıyoruz: Tüm e-kitaplarımız daha önce iyi niyetli yayıncılar tarafından yayınlanmıştı. Binlerce gönüllünün yardımıyla dijitalleştirdik ve özenle prova ettik ...
İstatistikler için muhtemelen "İngilizcede Bigram Frekansı" na bakıyorsunuz. Şuna göz atın: Wiki-Bigram İstatistikleri
büyük bir metin bulmaya gelince, frekansın metin türüne eğilimli olacağını unutmayın. Örneğin, adresleri analiz ederseniz, gazete hikayelerini analiz etmekten farklı sonuçlar elde edersiniz. Sadece test etmek isterseniz, herhangi bir kitabın PDF dosyasını (daha iyi bir matematik veya programlama veya tıbbi kitap olmamalı) kullanabilir ve metne dönüştürebilir, ardından testlerinizi yapabilirsiniz. Ayrıca gazete web sayfalarını metne dönüştürebilir ve bunlar üzerinde çalışabilirsiniz.