Ben "benzersiz" veya "benzerlik" değer bir tür hesaplamak için gereken n kümeleri bir grup var. Jaccard endeksine uygun bir metrik olarak yerleştim . Ne yazık ki, Jaccard endeksi bir seferde sadece iki sette çalışır. Bütün arasındaki benzerliği hesaplamak için setleri, bunun sırasına göre gerektirecektir n 2 Jaccard hesaplamaları.
(Eğer yardımcı olursa, genellikle 10 ile 10000 arasındadır ve her set ortalama 500 element içerir. Ayrıca, sonunda, herhangi iki özel setin ne kadar benzer olduğu umurumda değil - daha ziyade, sadece iç benzerliğin umurundayım (Diğer bir deyişle, gruptaki tüm Jaccard indekslerinin ortalaması (veya ortalamanın en azından yeterince doğru bir şekilde tahmin edilmesi)).)
İki soru:
- Jaccard indeksini karmaşıklığı olmadan kullanmanın bir yolu var mı ?
- Bir grup seti arasındaki set benzerliğini / tekliğini hesaplamak için yukarıda önerdiğimden daha iyi bir yol var mı?