Belgeler arasındaki benzerlikleri bulmak için gizli anlamsal indeksleme kullanıyorum ( teşekkürler, JMS! )
Boyut küçültmeden sonra, belgeleri çok iyi çalışan kümeler halinde gruplamak için k-ortalama kümelemeyi denedim. Ama biraz daha ileri gitmek ve belgeleri herhangi bir iki düğüm arasındaki mesafenin benzerlikleriyle ters orantılı olduğu bir düğüm kümesi olarak görselleştirmek istiyorum (son derece benzer düğümler birbirine yakın).
Verilerim> 2 boyut olduğundan, benzerlik matrisini 2 boyutlu bir grafiğe doğru bir şekilde indiremediğim beni çarpıcı kılıyor. İlk sorum: Bunu yapmanın standart bir yolu var mı?
Verilerimi iki boyuta indirgeyebilir ve sonra bunları X ve Y ekseni olarak çizebilir miyim ve bu ~ 100-200 belge grubu için yeterli olur mu? Çözüm buysa, verilerimi en başından itibaren 2 boyuta azaltmak daha mı iyi, yoksa çok boyutlu verilerimden iki "en iyi" boyutu seçmenin herhangi bir yolu var mı?
Bir fark yaratırsa Python ve gensim kütüphanesini kullanıyorum.