Bazı diller için diğerlerinden daha iyi çalışacak bazı yaklaşımlar vardır. Örneğin, soundex (ve beğendiğim başka bir açıklama ), isimlerin İngilizce telaffuzları için tasarlanmıştır. Soundex ile MichaelM240 olur. Bunun birkaç adımı vardır:
- İlk harf izole edilmiştir. (
Mve ichael)
- Tüm ünlüler kalanlardan (
Mve chl) kaldırılır
- Ünsüzler değiştirildi
- Sol ped sıfırları.
- ünsüz dönüşümlerin gruplaşma onların fonetik benzerlik dayanmaktadır B, F, Pve Vtüm harita 1.
Ve zamanla bu konuda farklılıklar var . Özellikle bir ismin hecelemesinin zamanla değişebileceği şecere faydalıdır, ancak telaffuz benzer kalır.
Havayolları tarafından isimler için geliştirilen (Amerikan şecere yerine) eşleşme derecesi gibi yaklaşımlar da vardır .
Eşleşme derecesi yaklaşımının (MRA) kodlanması:
- Tüm önde olmayan ünlüleri silin (
Michaelolur Mchlve Anthonyolur Anthny)
- Herhangi bir ikilinin ikinci sabitini kaldırın
- Dize 6 karakterden uzunsa, ilk üç ve son üç karakteri alarak kalan dizeyi 6 karaktere düşürün.
Bunun için tüm özellikler archive.org adresinde bulunabilir - "küçük değil" (yazdırılan form 214 sayfadır) olduğuna dikkat edin.
Karşılaştırmalar metin ne kadar süre dayanan bir eşleştirme eşiğine sahiptir.
Orada başka fonetik algoritmaları da .
Sizi teşvik ettiğim şey soundex'i olduğu gibi almak, maç puanı yaklaşımını olduğu gibi almak veya soundex'i Romanya ünsüzlerine ve Polonyalı ünsüzlere göre değiştirmek .
Soundex ile, sessiz harfler olduğunu unutmayın gruplanmış (In Lehçe, m, n, ɲsessiz onlar olmak ya da birlikte dile - - verilmiş, bilmiyorum tüm nazal ünsüzleri gruplanacak edilir ve muhtemelen grup, dudak diş ve alveoler enstruman ediyorum Lehçe bilmek bu yüzden orada doğru olmayan şeyler söylüyorum bilmiyorum).
Daha sonra veritabanındaki tüm adları iki farklı soundex sistemine dönüştürün ve hangi adların farklı dillerde en düşük çarpışma kümesine sahip olduğunu öğrenin. Bu size farklı isimler verir. Yani bu Smithgörünmüyor Smyth.
Ancak bu sadece "diğer isimlerle çarpışacak ve yanlış bilinen" adı çözer. "İsmin doğru duyulduğu, yanlış yazıldığı" diğer yolunu ele almaz ve bunun için dikkatlerini ortak isimlere odaklamalıdır.
Örneğin Michael, ABD'de 1950 başlarından 1970 sonlarına kadar çok yaygın bir isimdi . Gerçekten popülerdi . Ancak, bir nedenden dolayı, isim Micheal1950'lerde popülerdi (en yüksek 83. en yaygın isme ulaştı). Ve eminim ki, isimleri Michealsürekli olarak isimlerini yanlış yazmışlardır.
Bu nedenle, belirli bir telaffuz için adın popülerliğine hakim olan bir adın olduğu isimlere odaklanmalısınız. Yıllara göre adları için başka bir veri tüketiciye bakınca, bunu görebilirsiniz bir çocuk için bir karmaşa ... isimler Jam ile başlayan ile Jamaal, Jamal, Jamarve diğerleri. Bu arada, bu isimler için biraz farklı soundexes sahip Amerikan ( J540, J540ve J560- lve ronlar yakından fonetikte ait olsa dahi farklı gruplarda bulunan). Ancak, Japonya'dan birileri için, fonetik bölgede sadece bir ses var lverAmerikan İngilizcesinde telaffuz edilir. Bu aynı zamanda, farkında olması gereken soundex kullanan önde gelen ünsüzlerle de bir zorluk oluşturabilir (bir zamanlar Japon adının Romanlaştırılması olarak Lisa yerine Risa ('R' ile) olarak adlandırılan bir Japon kadınla çalıştım).
Örneklerimin Amerika Birleşik Devletleri için olduğunu not edeceksiniz. Bu verilere kolayca erişilebilir. Görünüşe göre Polonya ve Macarca için bazı şeyler var ve sadece Macarca ad ortaklığına dair ipuçları var ... İngilizce dışında bir dilde aramanın orada yardımcı olabileceğinden şüpheleniyorum.
Yani, bir isim için soundex göz önüne alındığında, birkaç çarpışma ve gerçek yazım çarpışmalar kümesinde. Tercihen, bu ortak bir isimdir. Macar listesine bakmak, Krisztiánmuhtemelen yanlış yazımlar alırken, Zoltándaha az olasıdır (Macaristan'da 2011'in en yaygın bebek ismi!). Dedi ki, yanlış gidemezsin Michael.