Metin belgeleri için, özellik vektörleri çok yüksek olabilir ve standart gösterimlerden herhangi biri altında (kelime çantası veya TF-IDF vb.) Seyrek olabilir. Doğrudan böyle bir sunum altında mesafeleri ölçmek güvenilir olmayabilir, çünkü çok yüksek boyutlarda, herhangi iki nokta arasındaki mesafenin aynı gibi görünmeye başladığı bilinen bir gerçektir. Bununla başa çıkmanın bir yolu, PCA veya LSA ( Latent Semantic Analysis ; Latent Semantic Indexing olarak da bilinir) kullanarak veri boyutlandırmasını azaltmak ve ardından yeni alandaki mesafeleri ölçmektir. PCA üzerinden LSA gibi bir şey kullanmak avantajlıdır, çünkü daha düşük boyutlu bir boşluktaki mesafeleri ölçmekten başka "anlamsal kavramlar" anlamında anlamlı bir ifade verebilir.
Olasılık dağılımlarına göre belgeleri karşılaştırmak genellikle ilk önce her bir belgenin konu dağılımını hesaplayarak ( Latent Dirichlet Allocation gibi bir şey kullanarak ) ve daha sonra da bir çift belge dağıtımı arasında bir tür sapma hesaplayarak yapılır. Bir bakıma, aslında ilk önce LSA yapmak ve daha sonra, vektörler arasında KL-uzaklığı kullanarak (kosinüs benzerliği yerine) LSA uzayındaki mesafeleri ölçmekle aynı tür.
KL-diverjans, dağılımları karşılaştırmak için bir mesafe ölçütüdür, bu nedenle belge gösteriminin bazı dağılımlar açısından olması tercih edilebilir. Ayrıca, böyle bir gösterimin altında, özellik vektöründeki girişlerin bir toplanacağına dikkat edin (temelde belgeyi konular veya semantik kavramlar üzerine bir dağıtım olarak ele alıyorsunuz ).
Ayrıca burada ilgili bir konuya bakın .