Bu sorunun başlığı metnine ayrı bir sorudur, bu yüzden ikisini de ayrı ayrı cevaplayacağım (birinin diğerine yol açtığı göz önüne alındığında).
- Görünmeyen cümleleri nasıl çıkarabilirim:
# ... trained model stored in var model
list_of_words = ["this", "is", "a", "new","unseen", "sentence"]
inferred_embedding = model.infer_vector(list_of_words)
W∈ RN-× PD ∈ RM× Rk
1M∑i=1M1|Di|∑t=k|Di−1|−klog(p(wit|wit−k,...,wit+k,Di))
Diith|Di|wittthithD
WD
- Muhtemelen görünmeyen bir cümlenin eğitim setindeki bir cümleyle tam olarak eşleştiğini çıkarabilir miyiz?
D
Rastgele tohumun düzeltilmesi bile işe yaramayabilir, yakınsamasını etkileyebilecek diğer birçok değişken vardır, lütfen ilk cevaba bakınız: https://github.com/RaRe-Technologies/gensim/issues/374 .
Her durumda, veri setinizdeki en benzer etiketi, sadece eğitim setiniz üzerinde tekrarlayarak ve benzerliği çıkarılan vektörle karşılaştırarak çıkarılmış bir cümleye bulabilirsiniz. Ama neden eğitim setindeki bir şeyle tam olarak eşleşmek istesin ki? bu belge yerleştirme amaçları için düzenli ifadeler denetimli veya denetimsiz öğrenme görevleri (sınıflandırma ve kümeleme) içindir.