Sorum genellikle Tekil Değer Ayrışması (SVD) ve özellikle Gizli Semantik İndeksleme (LSI) ile ilgili.
Diyelim, 7 belge için 5 kelimelik sıklıklar içeren var.
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
I matris çarpanlara elde SVD kullanılarak: .
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
In 1 ve 2'de , bu belirtilmektedir:
, satırlarının farklı kelimeleri temsil ettiği benzerlik matrisini verir .
WordSim = s$u %*% S
, sütunlarının farklı belgeleri temsil ettiği belge benzerlik matrisini verir .
DocSim = S %*% t(s$v)
Sorular:
- Cebirsel olarak, ve kelime / belge benzerlik matrisleri neden? Sezgisel bir açıklama var mı?
- Verilen R örneğine dayanarak, sadece ve (satırlar / sütunlar arasında kosinüs benzerliği veya korelasyon katsayısı kullanmadan) sezgisel kelime sayımı / benzerlik gözlemleri yapabilir miyiz ?
D=svd(A)$d
R'de sıfır olmayan öz değerlerin kareköklerini döndürdüğünü varsaydım , bu yüzden kullandım . Boyutsallık azaltma yönü ile ilgili bir sorunum yok ve A'nın daha düşük bir sıra yaklaşımının tanımladıkları gibi oluşturulabileceğini anlıyorum. Ben cevap buldum bu bağlantıyı kısmen sorumu cevaplar.