Belge kümelemede kullanılan çeşitli teknikleri araştırıyorum ve PCA (temel bileşen analizi) ve LSA (gizli anlamsal analiz) ile ilgili bazı şüphelerimi silmek istiyorum.
İlk şey - aralarındaki farklar nelerdir? PCA'da SVD ayrışmasının kovaryans matrisine uygulandığını biliyorum, LSA'da ise terim matrisi. Başka bir şey var mı?
İkincisi - belge kümeleme prosedüründeki rolü nedir? Şimdiye kadar okuduklarımdan, amaçlarının boyutsallığın azaltılması, gürültü azaltma ve terimler arasındaki ilişkileri temsile dahil etmektir. PCA veya LSA'nın uygulanmasından sonra, k-aracı veya aglomeratif yöntemler gibi geleneksel algoritmalar azaltılmış terim uzayına uygulanır ve kosinüs mesafesi gibi tipik benzerlik ölçümleri kullanılır. Yanılıyorsam lütfen beni düzeltin.
Üçüncüsü - PCA / LSA uygulanmadan önce TF / IDF terim vektörlerinin normalize edilip edilmediği önemli midir? Ve ondan sonra tekrar normalleşmeleri gerekir mi?
Dördüncü - diyelim ki LSA / PCA tarafından azaltılmış alan terimi üzerinde bazı kümelenmeler yaptım. Şimdi, sonuç kümelerine nasıl etiket atamalıyım? Boyutlar gerçek kelimelerle uyuşmadığından, bu zor bir konudur. Aklıma gelen tek fikir, her terim için orjinal terim vektörlerini kullanarak ve en ağırlıkları olan terimleri seçerek sentroidleri hesaplamaktır, ancak çok verimli gelmiyor. Bu problem için özel çözümler var mı? Hiçbir şey bulamadım.
Bu sorunları açıklığa kavuşturduğum için minnettar olacağım.