Gensim kullandığınız için, muhtemelen onun doc2vec uygulamasını kullanmalısınız. doc2vec, word2vec'in deyim, cümle ve belge düzeyine bir uzantısıdır. Burada açıklanan oldukça basit bir uzantıdır
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim güzeldir çünkü sezgisel, hızlı ve esnektir. Harika olan, önceden eğitilmiş kelime düğünlerini resmi word2vec sayfasından alabilmeniz ve gensim'in Doc2Vec modelinin syn0 katmanının ortaya çıkması, böylece kelime yerleştirmelerini bu yüksek kaliteli vektörlerle tohumlayabilirsiniz!
GoogleNews-Vectors-negative300.bin.gz ( Google Code'da bağlantılı olduğu gibi )
Sanırım gensim, bir vektör uzayına bir cümle yerleştirmek için kesinlikle en kolay (ve benim için en iyi) araç.
Le & Mikolov'un yukarıdaki makalesinde önerilenden başka cümle-vektöre dönüştürme teknikleri vardır. Stanford'dan Socher ve Manning, kesinlikle bu alanda çalışan en ünlü araştırmacılardan ikisi. Çalışmaları kompozisyonel ilkeye dayanmaktadır - cümlenin anlam bilgisi şunlardan gelir:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Cümle düzeyinde temsiller oluşturmak için bileşimin nasıl kullanılacağına dair bu tür birkaç model (giderek daha karmaşık hale geliyor) önerdiler.
2011 - ortaya çıkan özyinelemeli otomatik kodlayıcı (nispeten basit. İlgileniyorsanız buradan başlayın)
2012 - matris-vektör sinir ağı
2013 - sinir tensör ağı
2015 - Ağaç LSTM
makalelerinin tümü socher.org adresinde mevcuttur. Bu modellerden bazıları mevcuttur, ancak yine de gensim'in doc2vec'ini öneririm. Birincisi, 2011 URAE özellikle güçlü değil. Buna ek olarak, haber-y verilerinin yeniden ifade edilmesi için uygun ağırlıklarla önceden eğitilmiş olarak gelir. Sağladığı kod, ağı yeniden eğitmenize izin vermiyor. Ayrıca farklı kelime vektörlerini de değiştiremezsiniz, bu nedenle 2011'in Turian'dan kelime2vec öncesi yerleştirmeleriyle sıkışıp kalıyorsunuz. Bu vektörler kesinlikle word2vec veya GloVe düzeyinde değildir.
Henüz Tree LSTM ile çalışmadım ama çok umut verici görünüyor!
tl; dr Evet, gensim'in doc2vec'ini kullanın. Ancak başka yöntemler de var!