Biçimleri farklı olduğunda veya bunlardan biri yanlış yazıldığında posta adreslerinin nasıl eşleştirileceğini bilmek istiyorum.
Şimdiye kadar farklı çözümler buldum, ancak oldukça eski ve çok verimli olmadıklarını düşünüyorum. Eminim bazı daha iyi yöntemler vardır, bu yüzden okumak için referanslarınız varsa, bunun birkaç kişiyi ilgilendirebilecek bir konu olduğuna eminim.
Bulduğum çözüm (örnekler R'dir):
Levenshtein mesafesi, bir kelimeyi diğerine dönüştürmek için eklemeniz, silmeniz veya değiştirmeniz gereken karakter sayısına eşittir.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Fonemlerin karşılaştırılması
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
Bir yazım düzeltici (nihayetinde Peter Norvig'inki gibi bir bayesci) kullanımı , ancak sanırım adresinde çok verimli değil.
Google'ın önerilerini kullanmayı düşündüm, ancak aynı şekilde kişisel posta adreslerinde çok etkili değil.
Bir makine öğrenimi denetimli yaklaşımı kullandığınızı hayal edebilirsiniz, ancak benim için bir seçenek olmayan kullanıcıların yanlış yazılmış isteklerini saklamanız gerekir.