Bu sorunun burada tam olarak uygun olup olmadığından emin değilim, eğer değilse lütfen silin.
Ben ekonomi alanında yüksek lisans öğrencisiyim. Sosyal sigortalardaki sorunları araştıran bir proje için, uygunluk değerlendirmelerini ele alan çok sayıda idari vaka raporuna (> 200k) erişebiliyorum. Bu raporlar muhtemelen bireysel idari bilgilere bağlanabilir. Bu raporlardan nicel analizde kullanılabilecek ve ideal olarak grep
/ awk
vb. Kullanarak basit anahtar kelime / normal ifade aramalarından daha fazla bilgi elde etmek istiyorum .
Doğal Dil İşleme bunun için ne kadar yararlı? Diğer faydalı metin madenciliği yaklaşımları nelerdir? Anladığım kadarıyla bunun geniş bir alan olduğunu ve büyük olasılıkla bazı raporların bir ceset olarak kullanılmak üzere dönüştürülmeleri gerekecekti. Literatür ve yöntemlerle tanışmak için biraz zaman ayırmaya değer mi? Bu yardımcı olabilir ve daha önce benzer bir şey yapıldı mı? Ödüller açısından buna değer mi, yani ekonomide ampirik bir çalışma için NLP kullanarak potansiyel olarak yararlı bilgiler elde edebilir miyim?
Bazı raporları okumak ve hazırlamak için birini işe almak için muhtemelen fon vardır. Bu daha büyük bir proje ve daha fazla fon başvurusu yapma imkanı var. Kesinlikle gerekliyse konu hakkında daha fazla bilgi verebilirim. Potansiyel bir komplikasyon, dilin İngilizce değil, Almanca olmasıdır.
Nitelikler ile ilgili olarak, çoğunlukla ekonometri eğitimi aldım ve Hastie ve ark. kitap. Python, R, Stata'yı biliyorum ve muhtemelen Matlab'ı hızlı bir şekilde tanıyabilirler. Kütüphaneler göz önüne alındığında, Python'un bunun için tercih edilen bir araç olduğunu varsayıyorum. Bu uygunsa, nitel yöntemlerle ilgili hiçbir eğitim yok, ancak ulaşabileceğim bazı insanlar tanıyorum.
Bu konuda herhangi bir girdi için mutluyum, eğer bu potansiyel olarak yararlı ise, eğer öyleyse, nerede okumaya başlanacağı ve özellikle hangi araçlara odaklanacağı.