Not: R'de her şeyi yapıyorum.
Sorun şöyle devam ediyor:
Temel olarak, özgeçmişlerin bir listesi (CV) var. Bazı adaylar daha önce iş tecrübesine sahip olacak, bazıları ise işe yaramayacak. Buradaki amaç: Özgeçmişlerindeki metinlere dayanarak, onları farklı iş sektörlerine göre sınıflandırmak istiyorum. Özellikle adayların herhangi bir deneyime sahip olmadığı / öğrenci olmadığı durumlarda özellikle, ve bu adayın büyük olasılıkla mezun olduktan sonra hangi meslek sektörlerine ait olacağını sınıflandırmak için bir tahmin yapmak istiyorum.
Soru 1: Makine öğrenmesi algoritmalarını biliyorum. Ancak, daha önce hiç NLP yapmamıştım. İnternette Latent Dirichlet tahsisine rastladım. Bununla birlikte, sorunumla başa çıkmanın en iyi yaklaşım olup olmadığından emin değilim.
Asıl fikrim: bunu denetimli bir öğrenme sorunu haline getirin . Zaten çok sayıda etiketlenmiş veriye sahip olduğumuzu varsayalım; bu da, adayların listesi için iş sektörlerini doğru şekilde etiketlediğimiz anlamına gelir. Modeli ML algoritmaları kullanarak (yani en yakın komşu ...) kullanarak eğitiriz ve çalışma deneyimi olmayan / öğrenci olan etiketli olmayan verileri besler ve hangi iş sektörüne ait olacağını tahmin etmeye çalışırız.
Soruyu Güncelle 2: Özgeçmişteki her şeyi ayıklayarak bir metin dosyası oluşturmak ve bu verileri metin dosyasında yazdırmak iyi bir fikir olabilir mi, böylece her özgeçmiş yapılandırılmamış dizeleri içeren bir metin dosyasıyla ilişkilendirilir ve sonra metin dosyalarına uygulanan metin madenciliği teknikleri ve verilerin yapılandırılmasını ve hatta metin dosyalarında kullanılan terimlerin sıklık matrisini oluşturmasını sağlar? Örneğin, metin dosyası şuna benzeyebilir:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
“Yapılandırılmamış” derken kastediyorum, yani her şeyi tek bir satır dizisine çökertmek.
Bu yaklaşım yanlış mı? Yaklaşımımın yanlış olduğunu düşünüyorsanız lütfen beni düzeltin.
Soru 3: İşin zor yanı ise: Anahtar kelimeleri nasıl belirleyip çıkarabilirsiniz ? Kullanılması tm
R paketi? tm
paket hangi algoritmaya dayanıyor? NLP algoritmaları kullanmalı mıyım? Evet ise, hangi algoritmalara bakmalıyım? Lütfen bana bakmak için iyi kaynaklara yönlendir.
Herhangi bir fikir harika olurdu.