Elimde şu problem var: Çok uzun bir kelime listem var, muhtemelen isimler, soyadlar, vs. Bu kelime listesini kümelemeliyim, öyle ki benzer kelimeler, örneğin benzer düzenleme (Levenshtein) mesafeli kelimeler Aynı küme Örneğin, "algoritma" ve "alogrithm" aynı kümede görünmek için yüksek şansa sahip olmalıdır.
Örüntü Tanıma literatüründe K-ortalama kümeleme, EM kümeleme gibi klasik denetimsiz kümeleme yöntemlerinin farkındayım. Buradaki sorun, bu yöntemlerin bir vektör uzayda bulunan noktalar üzerinde çalışmasıdır. Elimde burda ipler var. Anlatılan çalışmalara göre, stringlerin sayısal bir vektör uzayında nasıl temsil edileceği ve string kümelerinin "araçlarının" hesaplanması sorusu yeterince cevaplanmıyor gibi görünüyor. Bu soruna saldırmak için naif bir yaklaşım, K-Means'ı Levenshtein mesafesi ile birleştirmek olacaktır, ancak soru hala "dizelerin" araçlarını "nasıl göstermeli?" Şeklindedir. TF-IDF ağırlığı olarak adlandırılan bir ağırlık var, ancak tek kelimelerin kümelenmesi için değil, çoğunlukla "metin belgesi" kümelemesi alanıyla ilgili görünüyor. http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
Bu alandaki arayışım hala devam ediyor, ama buradan da fikir edinmek istedim. Bu durumda ne önerirsiniz, bu tür bir sorun için herhangi bir yöntemden haberdar olan var mı?
It seems that there are some special string clustering algorithms
. Özellikle metin madenciliği alanından geliyorsanız, istatistik / veri analizinden değil, bu ifadeye garanti verilir. Ancak, kümelenme dalını olduğu gibi öğrenirseniz, dize verileri için "özel" algoritmalar bulunmadığını görürsünüz. "Özel", böyle bir veriyi küme analizine girmeden önce nasıl işlediğinizdir.