Subakadratik zamanda benzer vektörleri bulma


9

İzin Vermek d:{0,1}k×{0,1}kRbenzerlik fonksiyonu olarak adlandırdığımız bir fonksiyon olabilir . Benzerlik fonksiyonuna örnek olarak kosinüs mesafesi,l2 norm, Hamming mesafesi, Jaccard benzerliği, vb.

Düşünmek n uzunluk ikili vektörleri k: v({0,1}k)n.

Hedefimiz benzer vektörleri gruplandırmaktır. Daha resmi olarak, düğümlerin vektör olduğu ve kenarların benzer olan vektörleri temsil ettiği bir benzerlik grafiğini hesaplamak istiyoruz (d(v,u)ϵ).

n ve k çok büyük sayılar ve iki uzunluğu karşılaştırmak k vektörler pahalıdır, tüm kaba kuvvetleri yapamayız O(n2)operasyonlar. Benzerlik grafiğini önemli ölçüde daha az işlemle hesaplamak istiyoruz.

Mümkün mü? Değilse, benzerlik grafiğindeki tüm kenarları artı muhtemelen en fazla içeren grafiğe bir yaklaşım hesaplayabilirizO(1) diğer kenarlar?


Olmalı mı ϵ ziyade ϵ?
usul

@usul Yorumunuz için teşekkürler :) Burada, oldukça benzer olan öğeleri gruplandırmak istiyoruz. Soruyu düzenledim, umarım şimdi açıktır.
Ram

Sorun boyutunu azaltmak için Benzerlik Koruma Karma'yı ( arxiv.org/pdf/1311.7662v1.pdf ) kullanabileceğiniz gibi geliyor .
RB

4
Bu soru hiç iyi tanımlanmamış, lütfen daha fazla ayrıntı sağlayın. Örneğin,d bir kâhin tarafından verilir, o zaman açıkça daha iyisini yapamazsın (n2).
domotorp

5
Twitter için mi çalışıyorsun? blog.twitter.com/2014/all-pairs-slikeity-via-dimsum Cidden, bu grafikte bir kenar olup olmadığını tespit etmek bile (yani bağımsız bir köşe kümesi değil), daha hızlı yapmak çok zor olacakO(n2)keyfi benzerlik işlevi için.
Ryan Williams

Yanıtlar:


5

Johnson-Lindenstrauss teoremini ayakkabı boynuzu bu soruna sokmanın bir yolu olabilir . Esasen, JL, çift boyutlu mesafeler neredeyse korunacak şekilde yüksek boyutlu verileri düşük boyutlu alanlara yansıtabileceğinizi belirtir. Daha pratik olarak, Achlioptas'ın Veritabanı dostu rastgele projeksiyonlar adlı bir makalesi vardır : Bu projeksiyonu rastgele bir şekilde yapan ikili paraları olan Johnson-Lindenstrauss , pratikte oldukça iyi çalışır.

Şimdi, kesinlikle, benzerlik fonksiyonunuz JL teoremine uyan bir şeyle tam olarak aynı değildir. Bununla birlikte, bir mesafe fonksiyonu gibi görünüyor ve belki de yukarıdaki teorinin bir kısmı yardımcı olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.