Ekonometri için metin madenciliği / doğal dil işleme araçlarını kullanma


9

Bu sorunun burada tam olarak uygun olup olmadığından emin değilim, eğer değilse lütfen silin.

Ben ekonomi alanında yüksek lisans öğrencisiyim. Sosyal sigortalardaki sorunları araştıran bir proje için, uygunluk değerlendirmelerini ele alan çok sayıda idari vaka raporuna (> 200k) erişebiliyorum. Bu raporlar muhtemelen bireysel idari bilgilere bağlanabilir. Bu raporlardan nicel analizde kullanılabilecek ve ideal olarak grep/ awkvb. Kullanarak basit anahtar kelime / normal ifade aramalarından daha fazla bilgi elde etmek istiyorum .

Doğal Dil İşleme bunun için ne kadar yararlı? Diğer faydalı metin madenciliği yaklaşımları nelerdir? Anladığım kadarıyla bunun geniş bir alan olduğunu ve büyük olasılıkla bazı raporların bir ceset olarak kullanılmak üzere dönüştürülmeleri gerekecekti. Literatür ve yöntemlerle tanışmak için biraz zaman ayırmaya değer mi? Bu yardımcı olabilir ve daha önce benzer bir şey yapıldı mı? Ödüller açısından buna değer mi, yani ekonomide ampirik bir çalışma için NLP kullanarak potansiyel olarak yararlı bilgiler elde edebilir miyim?

Bazı raporları okumak ve hazırlamak için birini işe almak için muhtemelen fon vardır. Bu daha büyük bir proje ve daha fazla fon başvurusu yapma imkanı var. Kesinlikle gerekliyse konu hakkında daha fazla bilgi verebilirim. Potansiyel bir komplikasyon, dilin İngilizce değil, Almanca olmasıdır.

Nitelikler ile ilgili olarak, çoğunlukla ekonometri eğitimi aldım ve Hastie ve ark. kitap. Python, R, Stata'yı biliyorum ve muhtemelen Matlab'ı hızlı bir şekilde tanıyabilirler. Kütüphaneler göz önüne alındığında, Python'un bunun için tercih edilen bir araç olduğunu varsayıyorum. Bu uygunsa, nitel yöntemlerle ilgili hiçbir eğitim yok, ancak ulaşabileceğim bazı insanlar tanıyorum.

Bu konuda herhangi bir girdi için mutluyum, eğer bu potansiyel olarak yararlı ise, eğer öyleyse, nerede okumaya başlanacağı ve özellikle hangi araçlara odaklanacağı.


LASSO, En Az Açı Regresyonu ve Lojistik analizi potansiyel olarak alakalı birkaç araçtır. Doktora programım için benzer bir soruna nasıl yaklaştığımı kontrol etmek isteyebilirsiniz. burada tez ve burada ekonomide NLP araçları hakkında blog yazı . Bununla herhangi bir yere sahipseniz, ilerlemenizi veya karşılaşabileceğiniz zorlukları duymak harika olurdu.
gradstudent

Yanıtlar:


2

Verilerden hangi bilgileri çıkarmak istediğinizi tanımlamanızın size fayda sağlayacağını düşünüyorum. Basit anahtar kelime / normal ifade aramaları aslında sizin için çok verimli olabilir. Sigortacılıkta çalışıyorum ve bu tür metin madenciliğini oldukça sık kullanıyoruz - tartışmasız naif ve kesinlikle kusurlu, ancak genel olarak ilgilendiğimiz şeylere nispeten iyi bir başlangıç ​​(veya yakın bir yaklaşım).

Ama asıl nokta, seçtiğiniz yöntemin uygun olup olmadığını anlamak için, verilerden tam olarak ne çıkarmak istediğinizi tanımlamanızı tavsiye ederim; bence en zor kısmı bu.

Tüm dizelerdeki benzersiz kelimeleri bulmak ve en iyi 1000 kelimenin sıklığını yapmak ilginç olabilir. Bu, hesaplama açısından pahalı olabilir (RAM / işlemcinize bağlı olarak), ancak bakmak ilginç olabilir. Veriler hakkında fazla bilgi sahibi olmadan araştırsaydım, burası başlayacağım yerdi (diğerleri farklı görüşler sunabilir).

Umarım yardımcı olur.


teşekkürler, kesinlikle böyle bir şeyle başlamayı düşünüyordum. Sorumun belirsiz olduğunu biliyorum, ancak daha genel olarak, diğer yöntemlerle ne tür bilgileri çıkarabileceğimle ilgileniyorum. Belirli bir bağlamı bilmeden buna cevap vermenin mümkün olup olmadığından emin olmadığımı itiraf ediyorum.
ilprincipe

1
Bence her zaman veriyle ilgili iş / meslekle ilgili zorluk budur. Muhtemelen bazı verilerinize bakmanızı tavsiye ederim, veri veya sigorta olayı hakkında açıklamaları olan değişkenler varsa, birkaç düzine okuyun - veriler hakkında fikir edinin. Unutmayın, yapmaya çalıştığımız tek şey verilerin temel sürecini modellemek ve gerçekten iyi bir iş yapmak için verileri bilmeniz gerekir.
Francisco Arceo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.