Belge düzeyinde kümeleme yapmaya çalışıyorum. Doküman terim frekans matrisini oluşturdum ve bu yüksek boyutlu vektörleri k-araçları kullanarak kümelemeye çalışıyorum. Doğrudan kümeleme yerine, U, S, Vt matrislerini elde etmek için LSA'nın (Latent Semantic Analysis) tekil vektör ayrışmasını uygulamak, dağlama grafiğini kullanarak uygun bir eşik seçti ve indirgenmiş matrislere kümeleme uygulandı (özellikle Vt çünkü bana bir kavram-belge bilgisi verir) bana iyi sonuçlar veriyor gibi görünüyor.
Bazı insanlar SVD (tekil vektör ayrışma) söylediğini duymuştum edilir (kosinüs benzerliği ölçüsünü vb kullanarak) kümeleme ve emin ben SVD çıkışındaki k-ortalama geçerli olabilir eğer oldu. Bunun mantıksal olarak doğru olduğunu düşündüm çünkü SVD boyutsallık azaltma tekniğidir, bana bir sürü yeni vektör verir. Öte yandan k-, kümelerin sayısını girdi olarak alır ve bu vektörleri belirtilen sayıda kümeye böler. Bu prosedür kusurlu mu veya iyileştirilebilecek yollar var mı? Herhangi bir öneri?