«text-mining» etiketlenmiş sorular

Kalıpları tanıyarak metin biçimindeki verilerden veri çıkarmayla ilgili bir veri madenciliği alt kümesini ifade eder. Metin madenciliğinin amacı, belirli bir belgeyi otomatik olarak bir dizi kategoriden birinde sınıflandırmak ve bu performansı dinamik olarak iyileştirerek makine öğreniminin bir örneği haline getirmektir. Bu tür metin madenciliğinin bir örneği, e-posta için kullanılan spam filtreleridir.

2
N-gram neden kelimeler yerine metin dili tanımlamasında kullanılıyor?
İki popüler dil tanımlama kütüphanesinde, C ++ için Compact Language Detector 2 ve java için dil dedektörü , her ikisi de metin özelliklerini ayıklamak için (karakter tabanlı) n-gram kullandı. Neden bir kelime torbası (tek kelime / sözlük) kullanılmaz ve kelime torbası ve n-gramın avantajı ve dezavantajı nedir? Ayrıca, n-gram modelinin …



5
Metin madenciliği ile ilgili iyi kitaplar mı?
Merhaba Metin madenciliği ve sınıflandırma konusunda bazı vaka çalışmaları ile iyi kitaplar olup olmadığını bilmek istedim ?. Eğer olmasaydı halka açık bazı makaleler / dergiler yapardı. Örneklerini R ile daha iyi gösterirlerse. Adım adım el kitabı aramıyorum, ancak çeşitli problem sınıflarına çeşitli metin madenciliği yaklaşımlarının artılarını ve eksilerini gösteren bir …

1
Artımlı IDF (Ters Belge Sıklığı)
In a text mining application, one simple approach is to use the tf−idftf−idftf-idf heuristic to create vectors as compact sparse representations of the documents. This is fine for the batch setting, where the whole corpus is known a-priori, as the idfidfidf requires the whole corpus idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: …

1
TF-IDF logaritmasında logaritma kullanımını anlama
Ben okuyordum: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum. Ne Anlıyorum: iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir. Bu açıdan iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = …

3
Metin belgesi için özellik vektörü oluşturmak için bigram (N-gram) modeli kullanma ile ilgili
Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, …

1
Bu seyreklik yorumu doğru mu?
removeSparseTermsFonksiyonun tmpaketteki belgelerine göre, seyreklik budur: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. Öyleyse, …

1
Neden ters belge sıklığı eklemelisiniz?
Ders kitabımda idf log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) nerede NNN: Doküman Sayısı ntntn_t: Terim içeren Belge Sayısı ttt Wikipedia, bu formülü gerçek öğenin düzgünleştirilmiş bir sürümü olarak listeler log(Nnt)log(Nnt)log(\frac{N}{n_t}). Anladığım kadarıyla:log(NN)=0log(NN)=0log(\frac{N}{N})=0 için ∞∞\inftysezgisel görünüyor. Fakatlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) den gider log(1+1)log(1+1)log(1+1) için ∞∞\inftyBu çok tuhaf görünüyor ... Dil modellemesinden yumuşatma hakkında biraz şey biliyorum ama orada paydaya …


1
Ekonometri için metin madenciliği / doğal dil işleme araçlarını kullanma
Bu sorunun burada tam olarak uygun olup olmadığından emin değilim, eğer değilse lütfen silin. Ben ekonomi alanında yüksek lisans öğrencisiyim. Sosyal sigortalardaki sorunları araştıran bir proje için, uygunluk değerlendirmelerini ele alan çok sayıda idari vaka raporuna (> 200k) erişebiliyorum. Bu raporlar muhtemelen bireysel idari bilgilere bağlanabilir. Bu raporlardan nicel analizde …

1
Gözlenen ve beklenen olayları nasıl karşılaştırırım?
Diyelim ki 4 olası olayın sıklık örneğine sahibim: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 ve olaylarımın gerçekleşmesi için beklenen olasılıklarım var: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dört olayın gözlemlenen frekanslarının toplamı ile (18) Olayların beklenen frekanslarını hesaplayabilir …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Duygu analizini anlama ve uygulama
Bana bazı belge koleksiyonları için duyarlılık analizi yürütme projesi atanmıştı. Googling ile, duygularla ilgili birçok araştırma ortaya çıktı. Sorularım: Makine öğrenimi ve istatistiksel analiz alanında duyarlılık analizi için başlıca yöntemler / algoritmalar nelerdir? İyi belirlenmiş sonuçlar var mı? Duygu analizini gerçekleştirebilecek herhangi bir açık kaynaklı yazılım var mı?

4
2 X 3 masasında çoklu post-hoc ki-kare testleri nasıl yapılır?
Veri setim, toplam organizma ölümünü veya bir organizmanın kıyı, orta kanal ve açık deniz olmak üzere üç yer tipinde hayatta kalmasını içeriyor. Aşağıdaki tablodaki sayılar site sayısını temsil eder. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 % 100 mortalitenin meydana geldiği site sayısının site …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.