Kosinüs benzerliği l2 normalize öklid mesafesine eşit mi?


27

Özdeş bir vektör arasındaki bir sıralama benzerliği için benzer sonuçlar üretecek anlamı, u ve vektörler bir dizi V .

Parametre olarak uzaklık ölçüsü (öklid mesafesi, kosinüs benzerliği) ve normalizasyon tekniğine (hiç, l1, l2) sahip bir vektör uzayı modelim var. Anladığım kadarıyla, [cosine, none] ayarlarının sonuçları aynı veya en azından gerçekten [euclidean, l2] ile benzer olmalıdır, ancak değildir.

Sistemin hala buggy için iyi bir şansı var - ya da vektörler hakkında kritik bir sorunum var mı?

düzenleme: Vektörlerin bir korpustaki belgelerin kelime sayımlarına dayandığını söylemeyi unuttum. Bir sorgu belgesi (kelime sayısı vektöründe de dönüştürdüğüm) göz önüne alındığında, belgeyi en çok benzeyen korpusumdan bulmak istiyorum.

Sadece öklid mesafelerinin hesaplanması basit bir ön ölçüdür, ancak çalıştığım görevde, kosinüs benzerliği genellikle benzerlik göstergesi olarak tercih edilir, çünkü sadece uzunluk bakımından farklılık gösteren vektörler hala eşit kabul edilir. En küçük mesafe / kosinüs benzerliğine sahip belge en benzer olarak kabul edilir.


Her şey "vektör uzay modeli" nizin bu mesafelerle ne yaptığına bağlıdır. Modelin ne yaptığı hakkında daha spesifik olabilir misiniz?
whuber

Üzgünüm, bazen kendi kafamdan çıkmak zor. Bir özellik ekledim.
Arne

Hala herhangi bir model tanımlamıyorsun. Aslında, "tür görev (siz) işte" hakkında bıraktığınız tek ipucu nlp etiketidir - ama bu çok geniş bir işe yaramadı. İnsanların soruyu anlayabilmeleri ve iyi cevaplar verebilmelerini sağlayabilmeyi umduğum şey, mesafe ölçünüzü tam olarak nasıl kullandığınızı ve "sonuçların" ne olabileceğini nasıl belirlediğini tam olarak anlayabilmeniz için yeterli bilgidir.
whuber

stats.stackexchange.com/a/36158/3277 . Herhangi bir açısal aka sscp tipi benzerlik, karşılık gelen öklid mesafesine dönüştürülebilir.
ttnphns

Yanıtlar:


31

2x,y

||x||2=||y||2=1,
||xy||22=(xy)(xy)=xx2xy+yy=22xy=22cos(x,y)

Bunun sıralama üzerinde bir etkisi olur mu? Yani, V'deki bir vektör 'v_i' 'u' vektörüne olan kosinüs mesafelerine göre sıralarsam, onlar için belirli bir düzen alırım. Aynı vektörleri l_2 normalize öklid mesafesine göre sıralamak aynı sırayı mı verir?
Arne,

2
kare, monotik bir dönüşüm olduğundan (pozitif sayılar için), uzunluğa göre sıralanmış bir dizinin sırasını değiştiremez.
Arne,

5
u

Teşekkürler, bu bağlantı için güvenilir bir kaynağa sahip oldunuz mu?
Arne,

1
Eh, sanırım 'Lineer Alebra' o zaman yeter;; içgörü için tekrar teşekkürler!
Arne,

5

uv

cos(u,v)=u,vuv=uTvuv[1,1].
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.