tm
Bir arkadaşım tarafından bir taslak kağıt okuduktan sonra, üç gün geçirdim, burada UCINET ile bir metin topluluğunu keşfetti, metin bulutlarını, iki modlu ağ grafiklerini ve Tek Değer Ayrıştırma'yı (grafiklerle, Stata kullanarak) gösterdi. Çok sayıda sorunla karşılaştım: Mac OS X'te Java ile Kartopu (stemming) veya Rgraphviz (grafikler) gibi kitaplıkların ardında sorunlar var.
Birisi noktası dışarı Olabilir değil paketleri - Ben baktım tm
, wordfish
ve wordscores
ve NLTK hakkında bilmek - ama araştırma, kodla mümkünse metinsel veriler üzerinde başarıyla kullandığı bu tm
veya başka bir şey parlamento tartışmaları veya yasama belgelerinde gibi verileri analiz etmek? Bu konuda fazla bir şey bulamıyorum ve daha az kod öğrenmek için.
Benim kendi projem iki aylık bir meclis tartışması, bu değişkenler bir CSV dosyasında bilgilendiriliyor: parlamento oturumu, konuşmacı, parlamento grubu, sözlü müdahale metni. Konuşmacılar arasında ve özellikle parlamenter gruplar arasında nadir ve daha az nadir olan terimlerin kullanımında, örneğin "sivil özgürlükler" konuşmasına karşı "güvenlik konuşması" konusundaki farklılıkları arıyorum.