Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var.
Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey
model = LanguageModel('en')
p1 = model.perplexity('This is a well constructed sentence')
p2 = model.perplexity('Bunny lamp robert junior pancake')
assert p1 < p2
Bazı çerçevelere baktım ama istediğimi bulamadım. Şunun gibi bir şey kullanabileceğimi biliyorum:
from nltk.model.ngram import NgramModel
lm = NgramModel(3, brown.words(categories='news'))
Bu Brown Corpus üzerinde iyi bir turing olasılığı dağılımı kullanıyor, ancak 1b kelime veri seti gibi bazı büyük veri kümesinde iyi hazırlanmış bir model arıyordum. Genel bir alanın sonuçlarına güvenebileceğim bir şey (sadece haberler için değil)