Latent Dirichlet Tahsisini bir proje için kullanmak istiyorum ve Python'u gensim kütüphanesi ile kullanıyorum. Konuları bulduktan sonra, belgeleri k-means gibi bir algoritma kullanarak kümelemek istiyorum (İdeal olarak üst üste binen kümeler için iyi bir tane kullanmak istiyorum, böylece herhangi bir öneri memnuniyetle karşılanmaktadır). Konuları almayı başardım ama bunlar şu şekildedir:
0.041 * Bakan + 0.041 * Anahtar + 0.041 * anlar + 0.041 * tartışmalı + 0.041 * Başbakan
Bir kümeleme algoritması uygulamak ve yanlışsam beni düzeltmek için, her kelimeyi tfidf veya word2vec kullanarak sayı olarak göstermenin bir yolunu bulmam gerektiğine inanıyorum.
Bunu yapmak ve sonra uygun çarpımı yapmak için geri yerleştirmek için, örneğin bir listeden metin bilgilerini nasıl "şerit" olabilir hakkında herhangi bir fikrin var mı?
Örneğin, Bakan kelimesinin tfidf ağırlığı 0.042 ve benzeri ise, aynı konu içindeki başka bir kelime için gördüğüm şekilde şöyle bir şey hesaplamalıyım:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) ve sonuçları kümelemek için daha sonra kullanılacak bir sonuç elde edin.
Zaman ayırdığınız için teşekkür ederim.