Kümelenmek istediğim beş setim olduğunu varsayalım. Burada açıklanan SimHashing tekniğinin:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
üç küme (verim olabilir {A}
, {B,C,D}
ve {E}
örneğin,), sonuçları olsaydı:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
Benzer şekilde, MMDS kitabının 3. Bölümünde açıklanan MinHashing tekniği:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
sonuçları şu olsaydı aynı üç kümeyi de verebilirdi:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(Her grup üç "banttan" oluşan bir MH imzasına karşılık gelir ve imza bantlarından en az biri eşleşiyorsa iki grup gruplanır. Daha fazla bant daha fazla eşleşme şansı anlamına gelir.)
Ancak bunlarla ilgili birkaç sorum var:
(1) SH, MH'nin tek bant versiyonu olarak anlaşılabilir mi?
(2) MH, kümeleri oluşturmak için mutlaka Union-Find gibi bir veri yapısının kullanılmasını gerektiriyor mu?
(3) Her iki teknikte de kümelerin sadece "aday çiftler" kümeleri olmaları anlamında "ön kümeler" olduğunu düşünmekte haklı mıyım?