Hızlı k uyuşmazlığı dize eşleme algoritması

Hızlı k-mismatch dize eşleme algoritması arıyorum. M uzunluğunda bir desen dizesi P ve n uzunluğunda bir metin dizisi T verildiğinde, P'nin T'nin bir alt dizesini en fazla k uyuşmazlığıyla eşleştirdiği tüm konumları bulmak için hızlı (doğrusal zaman) algoritmasına ihtiyacım var. Bu, k farklılıkları sorunundan farklıdır (düzenleme mesafesi). Uyumsuzluk alt dizeyi ifade eder ve desenin en fazla k konumunda farklı bir harfi vardır. Gerçekten sadece k = 1 (en fazla 1 uyumsuzluk) gerektirir, bu nedenle k = 1 özel durumu için hızlı bir algoritma da yeterli olacaktır. Alfabe boyutu 26'dır (büyük / küçük harf duyarsız ingilizce metin), bu nedenle boşluk gereksinimi alfabenin boyutuyla çok hızlı büyümemelidir (örneğin, FAAST algoritması, sanırım, alfabenin boyutunda üstel alan alır ve bu yüzden sadece protein ve gen dizileri için uygundur).

Dinamik programlama tabanlı bir yaklaşım en kötü durumda O (mn) olma eğilimindedir ve bu çok yavaş olacaktır. Bunun için Boyer-Moore algoritmasında değişiklikler olduğuna inanıyorum, ancak bu tür kağıtlara ellerimi alamıyorum. Akademik dergilere veya yayınlara erişmek için aboneliğim yok, bu nedenle referansların kamuya açık olması gerekir.

Bu sorun için herhangi bir işaretçi veya serbestçe kullanılabilir belgelere veya algoritmanın kendisine yapılan referansları takdir ediyorum.

— Paresh
kaynak

Desen sabitse (ancak eşleşecek metin değişiklik gösteriyorsa), potansiyel olarak sonlu bir otomasyon oluşturabilir ve metni bu yolla çalıştırabilirsiniz. Ek ağaçları kullanan algoritmalar da vardır (genellikle metin sabitse ve desen değişirse iyidir, ancak her ikisi de değişirse uygulanabilir), web üzerinde bazı referanslar bulabilirsiniz. (Henüz bir cevap eklememek değil gibi ben sonek ağacı tabanlı algoritmalar çok emin değilim, eğer biri biliyorsa bu yorumu görmezden çekinmeyin lütfen).

— Aryabhata

@Aryabhata Teşekkürler! Hem desen hem de metin değişir. Bu bağlamda, özellikle 1 uyumsuzluk kapsamı dahil edildiğinde, sınırlı bir otomasyon oluşturmak çok pahalı olacaktır. Son ek ağaçlar / sonek dizilerine gelince, onları hiç kullanmadım ve onlar hakkında çok az şey bilmiyorum, ancak temel olarak tam eşleme için yavaş inşa edildikleri ve verimli oldukları izlenimi altındaydım. Ancak bu seçeneği daha ayrıntılı bir şekilde araştıracağım. Bu yönde veya başka herhangi bir yönde işaretçiler en yararlı olacaktır!

— Paresh

Hayır, son ek ağaçlar yaklaşık eşleşmeler için de kullanılabilir. En az wiki iddia ediyor: en.wikipedia.org/wiki/Suffix_tree

— Aryabhata

Yanıtlar:

Sonek dizileri bu sorun için kullanılabilir. Sözcükbilimsel sıralamaya göre dizenin her sonekinin başlangıç konumlarını içerirler. Her ne kadar karmaşıklığında saf olarak inşa edilebilirlerse de , bunları karmaşıklığında inşa etmek için yöntemler vardır . Örneğin bu ve buna bakın . Bu sonek dizisi SA diyelim. $O(n\log n)$ $\Theta(n)$

Sonek dizisi oluşturulduktan sonra, sonek dizisi için bir En Uzun Ortak Önek (LCP) dizisi oluşturmamız gerekir. LCP dizisi, sonek dizisindeki iki ardışık önek (sözlükçik ardışık sonekler) arasındaki en uzun ortak önek uzunluğunu saklar. Bu nedenle, LCP [i], SA [i] ve SA [i + 1] arasındaki en uzun ortak önek uzunluğunu içerir. Bu dizi doğrusal zamanda da oluşturulabilir: bazı iyi referanslar için buraya , buraya ve buraya bakın.

Şimdi, sonek ağacındaki herhangi bir iki sonek için ortak olan en uzun ön ekin uzunluğunu hesaplamak için (ardışık sonekler yerine), bazı RMQ veri yapısını kullanmamız gerekiyor . Yukarıdaki referanslarda gösterilmiştir (ve dizi bir sonek ağacı olarak görselleştiriliyorsa kolayca görülebilir), sonek dizisinde ve ( ) konumlarına sahip iki sonek arasındaki en uzun ortak önek uzunluğunun , $u$ $v$ $u < v$ $min_{u<=k<=v-1}{LCP[k]}$ . İyi bir RMQ işlem öncesi olabilir Dizi ya da formunun sorguları için zaman ve cevap içinde zaman. Bkz burada bir succint RMQ algoritması için, ve burada RMQ en iyi bir öğretici ve LCA ve RMQs arasındaki ilişki (ve indirimleri) için. Bunun güzel bir alternatif yaklaşımı var. $LCP$ $O(n)$ $O(n\log n)$ $LCP[u, v]$ $O(1)$

Bu bilgilerle, iki dizenin aradaki bir sınırlayıcı ile birleştirilmesi için (yukarıda açıklandığı gibi) sonek dizisini ve ilişkili dizileri oluştururuz (örneğin T # P, her iki dizede '#' oluşmaz). Ardından, "kanguru" yöntemini kullanarak k uyuşmazlığı dizesi eşleştirmesi yapabiliriz. Bu ve bu , kanguru yöntemini sonek ağaçları bağlamında açıklar, ancak sonek dizilerine de doğrudan uygulanabilir. Her dizin için metni bulmak ve ekinin başlayan ve son ek $i$ $T$ $LCP$ $T$ $i$ $P$ Bu, ile eşleştirirken ilk uyumsuzluğun meydana geleceği konumu verir . Bu uzunluk . Hem uyuşmayan karakteri atla ve ve kalan dizeleri eşleştirmeye çalışın. Kendisine, yeniden bulmak ve ve . uyuşmazlıkları elde edene veya dize bitene kadar bu işlemi tekrarlayın . Her biri $P$ $T[i]$ $l_0$ $T$ $P$ $LCP$ $T[i + l_0 + 1]$ $P[l_0 + 1]$ $k$ olan . Var ', bulunduğu her bir dizin için s arasında , bu toplam karmaşıklığını veren . $LCP$ $O(1)$ $O(k)$ $LCP$ $i$ $T$ $O(nk)$

$O(nk + (n+m)\log(n+m))$ $O(nk + n\log n)$ $m = O(n)$ $O(nk)$

— Paresh
kaynak

Harika! TODO listemde şimdi biraz okuma var :-)

— Aryabhata

İkinci paragraftaki siam.org bağlantısı koptu, ancak bağlantılı makale burada bulunabilir epubs.siam.org/doi/pdf/10.1137/1.9781611972917.3

— leecbaker

$\mathcal{O}(n + m )$ $k$ $\mathcal{O}(nk +m )$

Fikir, kesin alt dize maçları için Rabin-Karp haddeleme karma algoritmasına benzer .

$m$ $2k$ $m/2k$ $2k$ $2k$

$k$

Ben beklemek (uyarı: kendim denemedim) bu muhtemelen pratikte daha hızlı olacak ve belki de kod / bakım, bir ek ağacı tabanlı yaklaşım kullanmak daha kolay olacaktır.

— Aryabhata
kaynak

Sadece bir açıklamaya ihtiyacım var. ".. m uzunluğundaki her dizeyi her biri m / 2k büyüklüğünde 2k bloklara ayırın ..." ile, T (n uzunluğunda) m uzunluğundaki her alt dizeyi 2k bloklara ayırmak anlamına gelir. Ve bu karma haddeleme karma yöntemi ile O (n) cinsinden hesaplanabilir. Daha sonra, desen dizisi de 2k bloğa bölünecek ve karşılık gelen karmalar karşılaştırılacak ve en az k bloğunun uyumsuzluğuna izin verecek. Eğer öyleyse, yanlış eşleşme sayısının k'dan fazla olduğu tüm durumları potansiyel olarak atabiliriz. Doğru mu anladım?

— Paresh

k

$k$

Ω (n k)

$\Omega(nk)$

O (n)

$O(n)$

Bu yaklaşımı seviyorum! Ancak, bu yaklaşım genel olarak hızlıdır, ancak eşleşme sayısı yüksekse (O (n) eşleşmeler) O (mnk) değerine düşer. Bunu akılda tutarak, her ikisi de aynı girdi için bir çarpışmaya sahip olamayacağı varsayımı altında iki haddeleme karma değerini korudum (hızı görmek istediğim için bunu matematiksel olarak yapmadım). Bu şekilde, iki karma kabul ederse bir char-by-char doğrulaması gerekmiyor. Bu genel olarak oldukça hızlıdır, ancak maç sayısı fazla ise bu da yavaştır. Bununla ve önerdiğiniz şekilde, büyük maçlar için yavaştı.

— Paresh

Metni bölersek, en kötü durumda bu daha hızlı yapılabilir.

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$

\sqrt{m}

$\sqrt{m}$

O (n k \sqrt{m})

$O(nk\sqrt{m})$

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$

2 k

$2k$

k + 1

$k+1$

k + c

$k+c$

Ω (n m)

$\Omega(nm)$

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$