Bazı diller için diğerlerinden daha iyi çalışacak bazı yaklaşımlar vardır. Örneğin, soundex (ve beğendiğim başka bir açıklama ), isimlerin İngilizce telaffuzları için tasarlanmıştır. Soundex ile Michael
M240 olur. Bunun birkaç adımı vardır:
- İlk harf izole edilmiştir. (
M
ve ichael
)
- Tüm ünlüler kalanlardan (
M
ve chl
) kaldırılır
- Ünsüzler değiştirildi
- Sol ped sıfırları.
- ünsüz dönüşümlerin gruplaşma onların fonetik benzerlik dayanmaktadır B
, F
, P
ve V
tüm harita 1
.
Ve zamanla bu konuda farklılıklar var . Özellikle bir ismin hecelemesinin zamanla değişebileceği şecere faydalıdır, ancak telaffuz benzer kalır.
Havayolları tarafından isimler için geliştirilen (Amerikan şecere yerine) eşleşme derecesi gibi yaklaşımlar da vardır .
Eşleşme derecesi yaklaşımının (MRA) kodlanması:
- Tüm önde olmayan ünlüleri silin (
Michael
olur Mchl
ve Anthony
olur Anthny
)
- Herhangi bir ikilinin ikinci sabitini kaldırın
- Dize 6 karakterden uzunsa, ilk üç ve son üç karakteri alarak kalan dizeyi 6 karaktere düşürün.
Bunun için tüm özellikler archive.org adresinde bulunabilir - "küçük değil" (yazdırılan form 214 sayfadır) olduğuna dikkat edin.
Karşılaştırmalar metin ne kadar süre dayanan bir eşleştirme eşiğine sahiptir.
Orada başka fonetik algoritmaları da .
Sizi teşvik ettiğim şey soundex'i olduğu gibi almak, maç puanı yaklaşımını olduğu gibi almak veya soundex'i Romanya ünsüzlerine ve Polonyalı ünsüzlere göre değiştirmek .
Soundex ile, sessiz harfler olduğunu unutmayın gruplanmış (In Lehçe, m
, n
, ɲ
sessiz onlar olmak ya da birlikte dile - - verilmiş, bilmiyorum tüm nazal ünsüzleri gruplanacak edilir ve muhtemelen grup, dudak diş ve alveoler enstruman ediyorum Lehçe bilmek bu yüzden orada doğru olmayan şeyler söylüyorum bilmiyorum).
Daha sonra veritabanındaki tüm adları iki farklı soundex sistemine dönüştürün ve hangi adların farklı dillerde en düşük çarpışma kümesine sahip olduğunu öğrenin. Bu size farklı isimler verir. Yani bu Smith
görünmüyor Smyth
.
Ancak bu sadece "diğer isimlerle çarpışacak ve yanlış bilinen" adı çözer. "İsmin doğru duyulduğu, yanlış yazıldığı" diğer yolunu ele almaz ve bunun için dikkatlerini ortak isimlere odaklamalıdır.
Örneğin Michael
, ABD'de 1950 başlarından 1970 sonlarına kadar çok yaygın bir isimdi . Gerçekten popülerdi . Ancak, bir nedenden dolayı, isim Micheal
1950'lerde popülerdi (en yüksek 83. en yaygın isme ulaştı). Ve eminim ki, isimleri Micheal
sürekli olarak isimlerini yanlış yazmışlardır.
Bu nedenle, belirli bir telaffuz için adın popülerliğine hakim olan bir adın olduğu isimlere odaklanmalısınız. Yıllara göre adları için başka bir veri tüketiciye bakınca, bunu görebilirsiniz bir çocuk için bir karmaşa ... isimler Jam ile başlayan ile Jamaal
, Jamal
, Jamar
ve diğerleri. Bu arada, bu isimler için biraz farklı soundexes sahip Amerikan ( J540
, J540
ve J560
- l
ve r
onlar yakından fonetikte ait olsa dahi farklı gruplarda bulunan). Ancak, Japonya'dan birileri için, fonetik bölgede sadece bir ses var l
ver
Amerikan İngilizcesinde telaffuz edilir. Bu aynı zamanda, farkında olması gereken soundex kullanan önde gelen ünsüzlerle de bir zorluk oluşturabilir (bir zamanlar Japon adının Romanlaştırılması olarak Lisa yerine Risa ('R' ile) olarak adlandırılan bir Japon kadınla çalıştım).
Örneklerimin Amerika Birleşik Devletleri için olduğunu not edeceksiniz. Bu verilere kolayca erişilebilir. Görünüşe göre Polonya ve Macarca için bazı şeyler var ve sadece Macarca ad ortaklığına dair ipuçları var ... İngilizce dışında bir dilde aramanın orada yardımcı olabileceğinden şüpheleniyorum.
Yani, bir isim için soundex göz önüne alındığında, birkaç çarpışma ve gerçek yazım çarpışmalar kümesinde. Tercihen, bu ortak bir isimdir. Macar listesine bakmak, Krisztián
muhtemelen yanlış yazımlar alırken, Zoltán
daha az olasıdır (Macaristan'da 2011'in en yaygın bebek ismi!). Dedi ki, yanlış gidemezsin Michael
.