İstatistikler ve Büyük Veri text-mining

2

N-gram neden kelimeler yerine metin dili tanımlamasında kullanılıyor?

İki popüler dil tanımlama kütüphanesinde, C ++ için Compact Language Detector 2 ve java için dil dedektörü , her ikisi de metin özelliklerini ayıklamak için (karakter tabanlı) n-gram kullandı. Neden bir kelime torbası (tek kelime / sözlük) kullanılmaz ve kelime torbası ve n-gramın avantajı ve dezavantajı nedir? Ayrıca, n-gram modelinin …

12 machine-learning classification text-mining natural-language

7

R için metin madenciliği paketleri nelerdir ve başka açık kaynaklı metin madenciliği programları var mı?

R'de büyük miktarda veriye karşı kullanılabilecek bir metin madenciliği paketi önerebilir misiniz? İkincisi, R'deki metin madenciliği paketlerinden herhangi biri için bir GUI var mı? Üçüncüsü, kullanımı kolay ve sezgisel olan başka bir açık kaynak metin madenciliği programı var mı?

12 r text-mining

2

Kelimelerin vektör uzay modeli vs çanta?

Bu metin gösterimi modelleri arasındaki farklar nelerdir: Kelime grubu ve vektör uzay modeli?

12 machine-learning text-mining

5

Metin madenciliği ile ilgili iyi kitaplar mı?

Merhaba Metin madenciliği ve sınıflandırma konusunda bazı vaka çalışmaları ile iyi kitaplar olup olmadığını bilmek istedim ?. Eğer olmasaydı halka açık bazı makaleler / dergiler yapardı. Örneklerini R ile daha iyi gösterirlerse. Adım adım el kitabı aramıyorum, ancak çeşitli problem sınıflarına çeşitli metin madenciliği yaklaşımlarının artılarını ve eksilerini gösteren bir …

11 references text-mining

1

Artımlı IDF (Ters Belge Sıklığı)

In a text mining application, one simple approach is to use the tf−idftf−idftf-idf heuristic to create vectors as compact sparse representations of the documents. This is fine for the batch setting, where the whole corpus is known a-priori, as the idfidfidf requires the whole corpus idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: …

11 time-series text-mining

1

TF-IDF logaritmasında logaritma kullanımını anlama

Ben okuyordum: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum. Ne Anlıyorum: iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir. Bu açıdan iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Metin belgesi için özellik vektörü oluşturmak için bigram (N-gram) modeli kullanma ile ilgili

Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, …

10 machine-learning data-mining text-mining natural-language language-models

1

Bu seyreklik yorumu doğru mu?

removeSparseTermsFonksiyonun tmpaketteki belgelerine göre, seyreklik budur: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. Öyleyse, …

10 r text-mining natural-language

1

Neden ters belge sıklığı eklemelisiniz?

Ders kitabımda idf log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) nerede NNN: Doküman Sayısı ntntn_t: Terim içeren Belge Sayısı ttt Wikipedia, bu formülü gerçek öğenin düzgünleştirilmiş bir sürümü olarak listeler log(Nnt)log(Nnt)log(\frac{N}{n_t}). Anladığım kadarıyla:log(NN)=0log(NN)=0log(\frac{N}{N})=0 için ∞∞\inftysezgisel görünüyor. Fakatlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) den gider log(1+1)log(1+1)log(1+1) için ∞∞\inftyBu çok tuhaf görünüyor ... Dil modellemesinden yumuşatma hakkında biraz şey biliyorum ama orada paydaya …

9 text-mining natural-language smoothing

2

R'deki 'tm' (Metin Madenciliği) paketindeki VectorSource ve VCorpus nedir

VectorSource ve VCorpus'un 'tm' paketinde tam olarak ne olduğundan emin değilim. Belgeler bunlar hakkında net değil, kimse basit terimlerle anlamamı sağlayabilir mi?

9 r text-mining

1

Ekonometri için metin madenciliği / doğal dil işleme araçlarını kullanma

Bu sorunun burada tam olarak uygun olup olmadığından emin değilim, eğer değilse lütfen silin. Ben ekonomi alanında yüksek lisans öğrencisiyim. Sosyal sigortalardaki sorunları araştıran bir proje için, uygunluk değerlendirmelerini ele alan çok sayıda idari vaka raporuna (> 200k) erişebiliyorum. Bu raporlar muhtemelen bireysel idari bilgilere bağlanabilir. Bu raporlardan nicel analizde …

9 machine-learning data-mining econometrics text-mining natural-language

1

Gözlenen ve beklenen olayları nasıl karşılaştırırım?

Diyelim ki 4 olası olayın sıklık örneğine sahibim: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 ve olaylarımın gerçekleşmesi için beklenen olasılıklarım var: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dört olayın gözlemlenen frekanslarının toplamı ile (18) Olayların beklenen frekanslarını hesaplayabilir …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Duygu analizini anlama ve uygulama

Bana bazı belge koleksiyonları için duyarlılık analizi yürütme projesi atanmıştı. Googling ile, duygularla ilgili birçok araştırma ortaya çıktı. Sorularım: Makine öğrenimi ve istatistiksel analiz alanında duyarlılık analizi için başlıca yöntemler / algoritmalar nelerdir? İyi belirlenmiş sonuçlar var mı? Duygu analizini gerçekleştirebilecek herhangi bir açık kaynaklı yazılım var mı?

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

2 X 3 masasında çoklu post-hoc ki-kare testleri nasıl yapılır?

Veri setim, toplam organizma ölümünü veya bir organizmanın kıyı, orta kanal ve açık deniz olmak üzere üç yer tipinde hayatta kalmasını içeriyor. Aşağıdaki tablodaki sayılar site sayısını temsil eder. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 % 100 mortalitenin meydana geldiği site sayısının site …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

«text-mining» etiketlenmiş sorular