Öklid uzaklık puanı ve benzerliği


13

Sadece Kolektif İstihbarat (Toby Segaran tarafından) kitabıyla çalışıyorum ve Öklid uzaklık skoruyla karşılaştım. Kitapta yazar, iki öneri dizisi arasındaki benzerliğin nasıl hesaplanacağını gösterir (yani, .kişixfilmPuan)

İki kişilik Öklid mesafeyi hesaplar ve göre p1p2

d(p1,p2)=Σben  madde(sp1-sp2)2

Bu benim için tamamen mantıklı. Gerçekten anlamadım, neden sonunda "mesafe tabanlı bir benzerlik" elde etmek için aşağıdaki hesaplar:

11+d(p1,p2)

Yani, bir şekilde bunun uzaktan benzerliğe (doğru?) Dönüşüm olması gerektiğini anladım. Ama formüler neden böyle görünüyor? Birisi bunu açıklayabilir mi?


Farklılıkları ve benzerlikleri birbirine dönüştürmenin birçok yolu olabilir - spesifik formül sizin için ve gelecekteki analiz için neyin anlamlı olduğuna bağlıdır. Bu ders kitabında yazar, bir nedenle gösterdiğiniz formülü tercih etti; farklı bir durumda başka biri başka bir formül seçebilir. Öklid mesafesini benzerliğe dönüştürmenin en geometrik olarak doğru yolu, veri merkezli durum altında kosinüs teoreminden sonra gelir ve burada par. 1.
ttnphns

Tamam! Ama doğru anlarsam, öklid mesafesini gerçekten benzerliğe dönüştürmezsiniz, ancak sadece 0 ve 1 (kosinüs nedeniyle) içindeki değerleri döndüren farklı bir işlev kullanırsınız, değil mi? Yani tüm mesafeleri hesaplayıp, örneğin en küçük ve en büyük mesafe arasında enterpolasyon yaparak benzerliklere dönüştürmekten farklı görünüyor. Sağ?
navige

Kareli öklid mesafelerinin kare simetrik bir matrisine sahipseniz ve üzerinde "çift merkezleme" işlemi gerçekleştirirseniz, öküz uzayını öklid uzayını koyduğunuzda gözlemlenecek olan skaler ürünlerin matrisini elde edersiniz. itiraz ediyor. Bunlar skaler ürünler şunlardır açı tipi benzerlikler. Bunlar kovaryanslara çok benzer . 0-1 aralığında bağlı değildirler, negatif, pozitif olabilirler ve diyagonal elemanlar mutlaka 1 değildir. Yine de, benzerliklerdir.
ttnphns

Yanıtlar:


12

Tersi, mesafeden benzerliğe değişmektir.

Paydadaki 1 bunu maksimum değer 1 olacak şekilde yapmaktır (mesafe 0 ise).

Karekök - emin değilim. Mesafe genellikle 1'den büyükse, kök büyük mesafeleri daha az önemli hale getirir; mesafe 1'den azsa, büyük mesafeleri daha önemli hale getirecektir.


Üzgünüm! Karekök yanlıştı. Yazar aslında ikinci formüle koydu, ancak ilkinde bıraktı. Bu yüzden orada olmamalı
navige

Evet, ancak maksimum değeri 1 olarak ayarlamakla ilgili ipucunuz mantıklı! Teşekkürler!
navige

4

Mesafeyi ve benzerliği (anlamsal anlamda) ölçmek için kontrol edilecek ilk şey, bir Öklid uzayında hareket edip etmediğinizdir. Bunu doğrulamanın ampirik bir yolu, anlamını bildiğiniz bir çift değerin mesafesini tahmin etmektir.


1

Bahsettiğiniz gibi, Euclidence mesafesinin hesaplanmasını biliyorsunuz, bu yüzden ikinci formülü açıklıyorum.

Öklid formülü, daha benzer insanlar veya nesneler için daha küçük olacak mesafeyi hesaplar. Eğer aynılarsa, mesafe 0'dır ve 0'dan tamamen farklıdır.

Ancak daha yüksek değerde benzerlik gösteren bir fonksiyona ihtiyacımız var. Bu, işleve 1 ekleyerek (sıfıra bölme hatası almazsınız) ve tersine çevrilerek yapılabilir. Distence 0 ve benzerlik puanı 1/1 = 1 ise


Bu cevabı anlamıyorum.
Michael R.Chickick

tamam diyelim ki madde 1 ile madde 2 arasındaki Öklid mesafesi 4 ve madde 1 ile madde 3 arasındaki Öklid mesafesi 0 (% 100 benzer oldukları anlamına gelir). Bunlar sanal bir alandaki öğelerin mesafesi. mesafe değeri ne kadar küçükse birbirine yakın oldukları anlamına gelir. Şimdi sayısal değer istiyoruz, böylece çok benzer iseler daha yüksek bir sayı verir. Böylece ters değer yapabiliriz. Ama ya mesafemiz varsa 0 olur, bu yüzden paydaya 1 ekleriz. bu nedenle madde 1 ve 2 için benzerlik puanı 1 / (1 + 4) = 0.2 ve madde1 ve madde 3 için 1 / (1 + 0) = 0
user10009133

Belki bir çeşit mesafe ölçüsünden bahsediyorsunuz ama Öklid mesafesi bir vektör uzayı ile ilgili belirli bir formülü takip ediyor.
Michael R.Chickick

1/1+d(p1,p2)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.