2 veri kümesindeki kayıtları ad, soyad ve doğum yılına göre ilişkilendirmekle ilgileniyorum. Bu EM algoritması ile yapılabilir ve eğer öyleyse, nasıl?
Örnek olarak 1.'de şu rekoru ele alalım: Carl McCarthy, 1967. 2. veri kümesindeki tüm kayıtları arayacağım ve 1. ad ve Carl arasında bir jaro-winkler mesafesi ve soyadı ile McCarthy arasında bir jaro-winkler mesafesi atayacağım. Bu mesafe, doğum yılları arasındaki mesafe gibi olasılıklıdır. Bu 3 olasılığı (çarpma? Ortalama?) 1 ile birleştiriyoruz.
Şimdi karar kuralı kısmı geliyor. Tüm olasılıkları en yüksekten en düşüğe doğru sıralayalım. İlk olarak, P (ilk vuruş eşleşir)> = eşik istiyoruz. İkinci olarak, P (ikinci vuruş eşleşir) / P (ikinci vuruş eşleşir)> = P (ikinci vuruş eşleşir) mevcut olduğunda eşik isteriz. Üçüncüsü, bu ikinci veri kümesindeki ilk isabetin, 1967 Carl McCarthy ile 1. veri kümesinde en fazla 1 kişi için eşleşmesini istiyoruz.
Bu eşikler nasıl belirlenebilir?
Stata ve / veya Perl'deki yaklaşımları tercih ederim.
Bkz. Örneğin:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Bununla birlikte, girişlerin ve çıkışların ne olduğunu, nasıl ve ne olduğunu, varsayımları ve ne kadar kısıtlayıcı olduklarını tam olarak takip etmiyorum).