R (tm paketi) ile metin madenciliği örnekleri

14

tmBir arkadaşım tarafından bir taslak kağıt okuduktan sonra, üç gün geçirdim, burada UCINET ile bir metin topluluğunu keşfetti, metin bulutlarını, iki modlu ağ grafiklerini ve Tek Değer Ayrıştırma'yı (grafiklerle, Stata kullanarak) gösterdi. Çok sayıda sorunla karşılaştım: Mac OS X'te Java ile Kartopu (stemming) veya Rgraphviz (grafikler) gibi kitaplıkların ardında sorunlar var.

Birisi noktası dışarı Olabilir değil paketleri - Ben baktım tm, wordfishve wordscoresve NLTK hakkında bilmek - ama araştırma, kodla mümkünse metinsel veriler üzerinde başarıyla kullandığı bu tmveya başka bir şey parlamento tartışmaları veya yasama belgelerinde gibi verileri analiz etmek? Bu konuda fazla bir şey bulamıyorum ve daha az kod öğrenmek için.

Benim kendi projem iki aylık bir meclis tartışması, bu değişkenler bir CSV dosyasında bilgilendiriliyor: parlamento oturumu, konuşmacı, parlamento grubu, sözlü müdahale metni. Konuşmacılar arasında ve özellikle parlamenter gruplar arasında nadir ve daha az nadir olan terimlerin kullanımında, örneğin "sivil özgürlükler" konuşmasına karşı "güvenlik konuşması" konusundaki farklılıkları arıyorum.

r text-mining

— Fr.
kaynak

1

stackoverflow.com/questions/4070483/text-retrieval-using-r

7

Tm Yazarının doktora tezi, Avusturya'dan Ingo Feinerer, İngilizce dilinde yazılmıştır. Bu belgenin 7-10. Bölümleri tm paketinin karmaşıklığını artıran uygulamalarını içermektedir.

http://epub.wu.ac.at/1923/

Bölüm 7, R-devel 2006 posta listesini analiz ederek tm uygulamasını sunar. Bölüm 8, işletmeler için metin madenciliğinin tüketici elektronik ticaretine bir uygulamasını göstermektedir. Bölüm 9, aidat ve vergilerle ilgili Avusturya yüksek idare mahkemesi yargı yetkilerini araştırmak için bir tm uygulamasıdır. [...] . Bölüm 10, Oz Büyücüsü veri kümesindeki stilometri ve yazarlık ilişkilendirmesi için bir uygulamayı göstermektedir.

Örtmek için tüm belge kapağını okuyun. Bununla birlikte, belgenin 2008'de yazıldığını ve o zamandan beri birkaç API değişikliği olduğunu unutmayın, örneğin, doktora tezi tmMap()yeniden adlandırılmış bir işlevden bahseder tm_map(). Bu nedenle kod örnekleri olduğu gibi çalışmaz, bunları denemek için kes ve yapıştır yöntemini kullanamazsınız.

Ayrıca şu adrese gidebilirsiniz:

http://tm.r-forge.r-project.org/users.html

"Yeni kullanıcıları mevcut tm uygulamaları hakkında bilgilendirmek amacıyla bu site, tm kullanıcılarının ve bunların yorumlarının (eksik alfabetik) bir listesini sağlamayı amaçlamaktadır. Bilinen kullanıcılar araştırma enstitülerinden şirketlere ve bireylere kadar çeşitlilik göstermektedir."

ve "kağıt yazdı" ifadesini bu sayfada aradığınızda birçok bağlantı bulabilirsiniz. Makalelerden sadece birini okudum, "şarkı sözlerinde otomatik konu tespiti". Oldukça ilginç ve komik.

— KNB
kaynak

Bence Feinerer'in tezi bana şimdiye kadar en çok yardımcı olan belgedir. Teşekkürler!

— Fr.

5

Başlamak için iyi bir yer , web sitesinde şu gibi yayınların listesi olabilir tm:

R'deki Metin Madenciliği Altyapısı http://www.jstatsoft.org/v25/i05

Bu yayınların her birinin sonundaki referanslar listesi, tmaradığınız şey olan başarılı uygulamaları içerir . Çok var - özellikle referansların referanslarını takip ederseniz.

Örneğin, alaka düzeyi yüksek olabilecek bir tanesi:

Feinerer I, Hornik K (2007). \ Yüksek İdare Mahkemesi Yargıları Metin Madenciliği. Klassikation eV, 7 {9 Mart 2007, Freiburg, Almanya), "Klasikleştirme, Veri Analizi ve Bilgi Organizasyonu Çalışmaları. Springer-Verlag.

İyi şanslar.

— Bir adam
kaynak

Referanslar için teşekkürler. Bununla birlikte, bu yayınlarda ayrıntı düzeyi yetersizdir - Feinerer'in tezinden, tmsonunda nasıl çalışacağım hakkında yeterli bilgi almak için okumak zorunda kaldım . Yine de, çok teşekkürler :)

— Fr.