Özdeş bir vektör arasındaki bir sıralama benzerliği için benzer sonuçlar üretecek anlamı, u ve vektörler bir dizi V .
Parametre olarak uzaklık ölçüsü (öklid mesafesi, kosinüs benzerliği) ve normalizasyon tekniğine (hiç, l1, l2) sahip bir vektör uzayı modelim var. Anladığım kadarıyla, [cosine, none] ayarlarının sonuçları aynı veya en azından gerçekten [euclidean, l2] ile benzer olmalıdır, ancak değildir.
Sistemin hala buggy için iyi bir şansı var - ya da vektörler hakkında kritik bir sorunum var mı?
düzenleme: Vektörlerin bir korpustaki belgelerin kelime sayımlarına dayandığını söylemeyi unuttum. Bir sorgu belgesi (kelime sayısı vektöründe de dönüştürdüğüm) göz önüne alındığında, belgeyi en çok benzeyen korpusumdan bulmak istiyorum.
Sadece öklid mesafelerinin hesaplanması basit bir ön ölçüdür, ancak çalıştığım görevde, kosinüs benzerliği genellikle benzerlik göstergesi olarak tercih edilir, çünkü sadece uzunluk bakımından farklılık gösteren vektörler hala eşit kabul edilir. En küçük mesafe / kosinüs benzerliğine sahip belge en benzer olarak kabul edilir.