Çok fazla adres dizgim var:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Onları bileşenlerine göre ayrıştırmak istiyorum:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Ancak elbette veriler kirli: birçok ülkede birçok dilde geliyor, farklı şekillerde yazılmış, yazım hataları var, eksik parçalar var, fazladan önemsiz şeyler var.
Şu anda yaklaşımımız bulanık gazete eşleştirme ile birleştirilmiş kurallar kullanmak, ancak makine öğrenme tekniklerini araştırmak istiyoruz. Denetimli öğrenme için eğitim verilerini etiketledik. Asıl soru, bu nasıl bir makine öğrenmesi problemi? Gerçekten kümelenme, sınıflandırma veya gerileme gibi görünmüyor.
En yakınımda bulabildiğim en yakın şey, her bir simgeyi sınıflandırmak olacaktır, ancak o zaman hepsini aynı anda sınıflandırmak istersiniz; ve gerçekten bir dizgiyi tokenize etmenin birçok yolu var, ve her birini denemek ve en iyisini seçmek istiyorsunuz.
Öyleyse: adresleri ayrıştırmak için hangi makine öğrenme tekniklerini keşfedebilirim?