Çok çeşitli örnek metinleri nereden alabilirim? [kapalı]


14

Bir yazılım projesinde kullanmak için İngilizce dilinde kullanılan karakter veya kelime dizileri hakkında istatistik toplamaya çalışıyorum.

Çok sayıda konuyu kapsayan büyük miktarda İngilizce (birkaç GB iyi olurdu) nereden bulabilirim?


3
Her nasılsa özellikle bu illüstrasyonlardan
yannis

@Yannis Rizos Bunlar harika: D.
JSideris

@Yannis Rizos oh theyre pretty ...
sevenseacat

@YannisRizos Bu birkaç yıl önce kapatıldı. Sonunda soruyu düzenlemeye başladım, böylece KG formatı için biraz daha spesifik ve daha iyi. Şimdi kapatılabilir miyim? (Bu mesaj dizisinde hâlâ moderatör olan tek kişi sensin).
JSideris

Yanıtlar:


19

Wikipedia'nın veri dökümlerini kullanabilirsiniz . İngilizce Vikipedi için XML veri dökümü ben senin araştırma için iyi bir başlangıç olacağını söyleyebilirim bu yüzden şimdiki revizyonla birlikte, sadece 31 GB hakkındadır. Veri dökümü oldukça büyük olduğundan, bir SAX ayrıştırıcısıyla XML'den metinleri çıkarmayı düşünmelisiniz. WikiXMLJ , Wikipedia için ayarlanmış kullanışlı bir Java API'sidir .

Ve sonra, elbette, her zaman Stack Exchange veri dökümleri vardır . En sonuncusu , Eylül 2011'e kadar herkese açık beta olmayan tüm Stack Exchange sitelerini ve ilgili Meta sitelerini içerir. Ancak, doğal olarak Stack Exchange yayınları her sitenin kapsamına odaklanmıştır, bu yüzden muhtemelen istediğiniz kadar genelleştirilmemiştir. Meta yayınlar biraz daha genel, bu yüzden Wikipedia'ya ek olarak bunları da düşünebilirsiniz.

Özellikle düz metinde daha iyi bir şey bulacağınızı sanmıyorum. Veri Merkezi aracılığıyla birkaç açık veri kümesi kullanılabilir , ancak İngilizce Wikipedia veri dökümü aradığınıza çok yakın olduğunu düşünüyorum.


1
bunlar harika kaynaklar.
hanzolo

Yığınlar, geniş olmakla birlikte, çok dar bir söylem alanını (zorunlu olarak) kapsayacaktır, bu yüzden iyi bir genelleme yapamayabilirler.
jonsca

Tanrım, bu dosyalar çok büyük! En kısa sürede onları açmak ve tüm xml bok filtre bir yol bulabiliriz bu harika çalışması gerekir. Teşekkürler!
JSideris

1
@Bizorke Yardım edebileceğim için mutluyum. İşiniz bittiğinde, soruyu araştırmanızın bağlantısıyla güncellemelisiniz.
yannis

5

Google'ın n-gram olasılıklarını belirlemek için kullandıkları veri kümeleri koleksiyonu vardır. Bigram (2 gram) veri kümelerini incelemek size iyi bir resim vermelidir. Bu analizlerin daha önce yapıldığı başka birçok corpi var.


3
Ben edildi sadece aynı şeyi yazma.
jcmeloni

@jcmeloni Büyük beyinler!
jonsca

5

Gutenberg Projesi , halihazırda metin biçiminde İngilizce büyük bir metin topluluğuna sahiptir.

Project Gutenberg 42.000'den fazla ücretsiz e-kitap sunuyor: ücretsiz epub kitapları, ücretsiz kindle kitapları arasından seçim yapın, indirin veya çevrimiçi okuyun.

Yüksek kaliteli e-kitaplar taşıyoruz: Tüm e-kitaplarımız daha önce iyi niyetli yayıncılar tarafından yayınlanmıştı. Binlerce gönüllünün yardımıyla dijitalleştirdik ve özenle prova ettik ...


1
Gutenberg Projesi'ni düşündüm ama konsantre bir veri dökümü bulamadım. Bir kitabın eklenmesi için, telif hakkının süresinin dolması gerekir ve genellikle bu, kitapların ilk yayınlanmasından bu yana 50 ila 70 yıl geçti demektir. Bu yüzden veri kümesi olarak Gutenberg Projesi'nin bugün kullanılan dili temsil ettiğini düşünmüyorum.
yannis

1
"Bugün kullanılan dili temsil eden" bir şey istiyorsanız, YouTube yorumlarını deneyin. Acı ama gerçek.
Jörg W Mittag

@ JörgWMittag - ah. Beni gerçekten rahatsız eden ne kadar yanlış olduğun.
Michael Kohne

@ Jörg W Mittag Mümkün, ancak daha sonra youtube'a özgü bazı kelimeler çok sık gelirdi, örneğin: YO OU UT TU UB BE, hatta daha da kötüsü: FA AK KE AN ND GA AY
JSideris

1

İstatistikler için muhtemelen "İngilizcede Bigram Frekansı" na bakıyorsunuz. Şuna göz atın: Wiki-Bigram İstatistikleri

büyük bir metin bulmaya gelince, frekansın metin türüne eğilimli olacağını unutmayın. Örneğin, adresleri analiz ederseniz, gazete hikayelerini analiz etmekten farklı sonuçlar elde edersiniz. Sadece test etmek isterseniz, herhangi bir kitabın PDF dosyasını (daha iyi bir matematik veya programlama veya tıbbi kitap olmamalı) kullanabilir ve metne dönüştürebilir, ardından testlerinizi yapabilirsiniz. Ayrıca gazete web sayfalarını metne dönüştürebilir ve bunlar üzerinde çalışabilirsiniz.


2
Evet, sonuçların önyargılı olacağını anlıyorum. Mümkün olduğunca çok konuyu kapsayan bir kaynağa ihtiyacım var. Bir sürü e-kitap indirmeyi düşündüm, asıl sorun hepsini metne dönüştürmektir. Ancak bazı bigram istatistiklerine bakmak zarar vermez (2 harfli kombinasyonların adlandırıldığını fark etmedim).
JSideris

Yorumun için teşekkür ederim. ADOBE PDF okuyucusunda Dosya -> Metin Olarak Kaydet'i kullanarak PDF'yi metne dönüştürebilirsiniz. Bu bağlantı ayrıca değerli olabilir: data-compression.com/english.html
NoChance

@EmmadKareem OP birkaç GB metin istiyor. PDF'lerden metin çıkarmak için Adobe Reader kullanmasını ciddi bir şekilde mi öneriyorsunuz?
yannis

@YannisRizos, birkaç GB'nin zorunlu bir gereklilik olduğunu fark etmedim. Bu durumda, bu amaç için kullanılabilecek daha iyi araçlar vardır. Bunu işaret ettiğiniz için teşekkürler.
NoChance
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.