Sözcüksel bir konuya nasıl yaklaşılacağı konusunda bazı girdi ve teoriler arıyorum.
Diyelim ki sadece bir cümle veya potansiyel olarak birden fazla cümle olabilen dizelerden oluşan bir koleksiyonum var. Bu dizeleri ayrıştırmak ve en önemli kelimeleri sökmek istiyorum, belki de kelimenin ne kadar önemli olduğunu gösteren bir puanla.
Ne demek istediğimin birkaç örneğine bakalım.
Örnek 1:
"Gerçekten bir Keurig istiyorum, ama göze alamıyorum!"
Bu çok basit bir örnek, sadece bir cümle. İnsan olarak, "Keurig" in buradaki en önemli kelime olduğunu rahatlıkla görebiliyorum. Ayrıca, "göze" göreceli olarak önemlidir, ancak cümlenin ana noktası bu değildir. "Ben" kelimesi iki kez görünür, ama bize hiçbir bilgi vermediği için hiç önemli değil. Kelime / puanları bir karma görmeyi bekleyebilirsiniz böyle bir şey:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
Örnek 2 -
"Hayatımın en iyi yüzme uygulamalarından birine sahiptim. Umarım zamanımı rekabete sokabilirim. Sadece su geçirmez olmayan saatimi almayı hatırlamış olsaydım."
Bu örnekte birden fazla cümle var, bu yüzden baştan sona daha önemli kelimeler olacak. Örnek 1'deki nokta egzersizi tekrarlanmadan, muhtemelen bundan iki veya üç önemli kelime çıkacağını beklerim: "yüzme" (veya "yüzme uygulaması"), "rekabet" ve "izle" (veya "su geçirmez" "" veya "su geçirmez olmayan saat" i seçin.
Bunun gibi birkaç örnek verildiğinde, benzer bir şey yapmaya nasıl devam edersiniz? Programlamada zaten bunu yapan mevcut (açık kaynak) kitaplıklar veya algoritmalar var mı?