Her bir belge için bir metin belgeleri grubunu kelime vektörlerine dönüştürüyorum. Ben bir TfidfVectorizer ve bir HashingVectorizer kullanarak denedim
A'nın yaptığı gibi puanları HashingVectorizer
dikkate almadığını anlıyorum . Hala çalışmamın nedeni , burada ve burada açıklandığı gibi, büyük veri kümeleriyle uğraşırken sağladığı esneklik . (Orijinal veri kümemde 30 milyon belge var)IDF
TfidfVectorizer
HashingVectorizer
Şu anda, 45339 belgeden oluşan bir örnekle çalışıyorum, bu yüzden bir ile TfidfVectorizer
de çalışabiliyorum . Bu iki vectorizeri aynı 45339 dokümanda kullandığımda, aldığım matrisler farklı.
hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape)
karma matris şekli (45339, 1048576)
tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape)
tfidf matris şekli (45339, 663307)
A HashingVectorizer
ve a arasındaki farkları ve TfidfVectorizer
bu matrislerin neden farklı boyutlarda olduğunu, özellikle de kelime / terim sayısında daha iyi anlamak istiyorum .