Benzerliği Ayarla - İkinci dereceden karmaşıklık olmadan Jaccard dizinini hesapla

Ben "benzersiz" veya "benzerlik" değer bir tür hesaplamak için gereken n kümeleri bir grup var. Jaccard endeksine uygun bir metrik olarak yerleştim . Ne yazık ki, Jaccard endeksi bir seferde sadece iki sette çalışır. Bütün arasındaki benzerliği hesaplamak için setleri, bunun sırasına göre gerektirecektir Jaccard hesaplamaları. $n$ $n^2$

(Eğer yardımcı olursa, genellikle 10 ile 10000 arasındadır ve her set ortalama 500 element içerir. Ayrıca, sonunda, herhangi iki özel setin ne kadar benzer olduğu umurumda değil - daha ziyade, sadece iç benzerliğin umurundayım (Diğer bir deyişle, gruptaki tüm Jaccard indekslerinin ortalaması (veya ortalamanın en azından yeterince doğru bir şekilde tahmin edilmesi)).) $n$

İki soru:

Jaccard indeksini karmaşıklığı olmadan kullanmanın bir yolu var mı ? $n^2$
Bir grup seti arasındaki set benzerliğini / tekliğini hesaplamak için yukarıda önerdiğimden daha iyi bir yol var mı?

algorithms time-complexity

— rinogo
kaynak

Ne demek istediğinizi "içsel benzerlik" ile netleştirebilir misiniz?

— Suresh

Başka bir deyişle, gruptaki tüm Jaccard indekslerinin ortalaması (veya ortalamanın en azından yeterince doğru bir yaklaşımı).

Cevabı yaklaşık olarak tahmin etmek istiyorsanız, yaklaşık olarak Jaccard mesafesini tahmin etmek için küçük bir karma işlemini kullanabilir ve ardından istenen ortalamayı hesaplamak için elde edilen gösterimi kullanabilirsiniz.

— Suresh

“Yeterince doğru” ile ne demek istediğinizi bilmiyorum, ancak birçok şeyin ortalamasını tahmin etmenin bir yolu, sadece birkaçını (bu durumda birkaç çift kümenin Jaccard indeksleri) rastgele hesaplamak ve ortalamalarını hesaplamaktır. Daha sonra bu tahminin gerçek ortalamadan uzak olma olasılığı üzerinde bir üst sınır elde etmek için Chernoff sınırını kullanabilirsiniz.

— Tsuyoshi Ito

Yanıtlar:

Seçenek, boyut tabanlı filtrelemenin İmza Şemasını kullanmak olabilir: Dikkate alınması gereken ayarlanmış çiftlerin sayısını azaltmak için boyut bilgilerini kullanan bir şema.

Aynı zamanda ağırlıklı bir form ile deney yaparlar; burada ağırlıklar IDF tabanlıdır.

[1] Arasu, Arvind, Venkatesh Ganti ve Raghav Kaushik. “Verimli Tam Set-benzerlik Birleşmeleri.” 32. Uluslararası Çok Büyük Veri Tabanları Konferansı, 918–929. VLDB '06. VLDB Vakfı, 2006

— AT
kaynak

Bu bağlantı kopmuş gibi görünüyor. Bunu vldb.org/conf/2006/p918-arasu.pdf olarak güncelleyin .

— j_random_hacker

Başka bir seçenek de yerel duyarlılık karma wiki bağlantısı kullanmak olacaktır . Wu ve Zou ( yöreye duyarlı karma , Neural Networks 58: 14–28; ACM DL kullanan sosyal etiketleme sistemleri için artımlı bir topluluk algılama yöntemi ) tarafından temel olarak tamsayı veya dize kümeleri.

— dinos66
kaynak

Lütfen bağlantıların içeriğini özetleyin ve makaleyi belirtin. Bağlantılar eskiyse geçerli yanıt işe yaramaz.

— vonbrand