Jaccard Benzerliği s i j = p tarafından verilir.
sij=pp+q+r
nerede,
p = her iki nesne için de pozitif olan özelliklerin sayısı
q = i
için 1 ve j için 0'ın sayısı # r
A⋅B∥A∥∥B∥
Basitçe söylemek gerekirse, kosinüs benzerliğine ortak özelliklerin sayısı, olası özelliklerin toplam sayısına bölünür. Oysa Jaccard Benzerliğinde, ortak özelliklerin sayısı, iki nesneden en az birinde bulunan özelliklerin sayısına bölünür.
Ve her biri kendi dış merkezli özelliklerine sahip birçok benzerlik ölçütü var. Hangisini kullanacağınıza karar verirken, birkaç temsili vakayı düşünmeye çalışın ve hedefinize ulaşmak için hangi endeksin en kullanışlı sonuçları vereceğini hesaplayın.
Cosine endeksi, intihal tanımlamak için kullanılabilir, ancak internetteki ayna sitelerini tanımlamak için iyi bir indeks olmayacaktır. Oysa, Jaccard endeksi, ayna sitelerini tanımlamak için iyi bir indeks olacak, ancak makarnalı intihal kopyalarını yakalamakta o kadar iyi değil (daha büyük bir belge içinde).
Bu endeksleri uygularken probleminizi iyice düşünmeli ve benzerliği nasıl tanımlayacağınızı bulmalısınız. Aklında bir tanım varsa, bir endeks için alışverişe gidebilirsiniz.
Düzenleme:
Daha önce, bu cevapta yer alan ve sonuçta hatalı olan bir örnek vardı. Bunu belirten birkaç kullanıcı sayesinde hatalı örneği sildim.