Ben gensim doc2vec ile cümleler / paragraflar / belgeleri nasıl etiketlemek (etiket) merak ediyorum - pratik bir bakış açısından.
Her cümlenin / paragrafın / belgenin kendine özgü etiketi (örneğin "Sent_123") olması gerekiyor mu? "Hangi sözcüklerin veya cümlelerin" Sent_123 "etiketli tek bir cümleyle en çok benzediğini söylemek istiyorsanız bu yararlı görünüyor.
Etiketleri içeriğe göre tekrarlayabilir misiniz? Örneğin, her cümle / paragraf / belge belirli bir ürün kalemi ile ilgiliyse (ve belirli bir ürün kalemi için birden fazla cümle / paragraf / belge varsa) cümleleri öğeye dayalı olarak etiketleyebilir ve ardından bir kelime veya bir kelime arasındaki benzerliği hesaplayabilirsiniz cümle ve bu etiket (sanırım ürün ile ilgili tüm bu cümlelerin ortalaması gibi olurdu)?