Veri Bilimi text-mining

5

Belgeler arasındaki mesafeyi hesaplamanın bazı standart yolları nelerdir?

"Belge" derken, Wikipedia makaleleri ve haber hikayeleri gibi web sayfalarını da düşündüm. Vanilyalı sözcük uzaklık ölçütlerini ya da en gelişmiş anlamsal uzaklık ölçütlerini veren yanıtları tercih ediyorum, ikincisi için daha güçlü bir tercih.

34 machine-learning data-mining nlp text-mining similarity

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Özgeçmiş verilerine dayanarak iş sınıflandırmasını yapmak için hangi algoritmaları kullanmalıyım?

Not: R'de her şeyi yapıyorum. Sorun şöyle devam ediyor: Temel olarak, özgeçmişlerin bir listesi (CV) var. Bazı adaylar daha önce iş tecrübesine sahip olacak, bazıları ise işe yaramayacak. Buradaki amaç: Özgeçmişlerindeki metinlere dayanarak, onları farklı iş sektörlerine göre sınıflandırmak istiyorum. Özellikle adayların herhangi bir deneyime sahip olmadığı / öğrenci olmadığı …

28 machine-learning classification nlp text-mining

3

Anahtar metni cümleden çıkarmak için genel yaklaşım (nlp)

Gibi bir cümle verilir: Complimentary gym access for two for the length of stay ($12 value per person per day) Spor salonu veya spor salonuna erişim kelimesini tanımlamak için hangi genel yaklaşımı uygulayabilirim?

27 machine-learning nlp text-mining data-cleaning

3

Derin Öğrenme kütüphanelerini kullanarak Metinden anahtar kelime / kelime öbeği çıkarma

Belki de bu çok geniş, ancak bir metin özetleme görevinde derin öğrenmenin nasıl kullanılacağına dair referanslar arıyorum. Standart kelime frekansı yaklaşımlarını ve cümle sıralamasını kullanarak metin özetlemeyi zaten uyguladım, ancak bu görev için derin öğrenme tekniklerini kullanma olasılığını araştırmak istiyorum. Ben de duygu analizi için Convolutional Nöral Ağlar (CNN) kullanarak …

20 neural-network text-mining deep-learning beginner tensorflow

3

metin sınıflandırması ve konu modelleri arasındaki fark nedir?

Makine öğreniminde kümeleme ve sınıflandırma arasındaki farkı biliyorum, ancak belgeler için metin sınıflandırma ve konu modelleme arasındaki farkı anlamıyorum. Bir konuyu tanımlamak için belgeler üzerinde konu modellemesi kullanabilir miyim? Bu belgelerdeki metni sınıflandırmak için sınıflandırma yöntemlerini kullanabilir miyim?

20 classification text-mining topic-model

1

Hellinger Distance nedir ve ne zaman kullanılır?

Hellinger Distance'da gerçekten ne olduğunu bilmekle ilgileniyorum (basit terimlerle). Ayrıca Hellinger Distance ile kullanabileceğimiz sorunların neler olduğunu bilmekle de ilgileniyorum. Hellinger Distance kullanmanın faydaları nelerdir?

19 machine-learning data-mining text-mining distance

3

İlk anahtar kelimelere dayalı olarak alakalı kelimelerin listesi nasıl büyütülür?

Kısa bir süre önce Google E-Tablolar'da sunulan harika bir özellik gördüm : ardışık hücrelere birkaç alakalı anahtar kelime yazarak başlayın, "mavi", "yeşil", "sarı" deyin ve otomatik olarak benzer anahtar kelimeler (bu durumda) oluşturur , diğer renkler). Bu YouTube videosunda daha fazla örneğe bakın . Bunu kendi programımda çoğaltmak istiyorum. Freebase'i …

19 nlp text-mining freebase

4

Meta verilere sahip metin belgelerine nasıl açıklama eklenir?

Çok sayıda metin belgesine sahip olmak (doğal dilde, yapılandırılmamış), bazı semantik meta verilerle açıklama eklemenin olası yolları nelerdir? Örneğin, kısa bir belge düşünün: I saw the company's manager last day. Ondan bilgi alabilmek için, daha az belirsiz olması için ek verilerle açıklanması gerekir. Bu tür meta verileri bulma süreci söz …

18 nlp metadata data-cleaning text-mining

2

Doc2Vec - Paragraflar nasıl etiketlenir (gensim)

Ben gensim doc2vec ile cümleler / paragraflar / belgeleri nasıl etiketlemek (etiket) merak ediyorum - pratik bir bakış açısından. Her cümlenin / paragrafın / belgenin kendine özgü etiketi (örneğin "Sent_123") olması gerekiyor mu? "Hangi sözcüklerin veya cümlelerin" Sent_123 "etiketli tek bir cümleyle en çok benzediğini söylemek istiyorsanız bu yararlı görünüyor. …

17 machine-learning text-mining word-embeddings word2vec

1

Metin kümeleme için algoritmalar

Çok sayıda cümleyi anlamlarına göre gruplara ayırma problemim var. Bu, çok sayıda cümleniz olduğunda ve anlamlarına göre gruplandırmak istediğinizde bir soruna benzer. Bunu yapmak için hangi algoritmalar öneriliyor? Önceden kümelerin sayısını bilmiyorum (ve daha fazla veri geliyor gibi kümeler de değişebilir), normalde her cümleyi temsil etmek için hangi özellikler kullanılır? …

17 clustering text-mining algorithms scikit-learn

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Metnin en bilgilendirici bölümlerini belgelerden çıkarın

Mevcut belge hakkında en fazla bilgiyi içeren metnin bir kısmını çıkartma hakkında herhangi bir makale veya tartışma var mı? Örneğin, aynı etki alanından büyük bir belge topluluğum var. Metnin, tek bir belgenin bahsettiği temel bilgileri tutan kısımları vardır. Bu parçalardan bazılarını çıkarmak ve bunları metnin bir özeti olarak kullanmak istiyorum. …

16 nlp text-mining

4

Posta adresleri bulanık eşleştirme nasıl yapılır?

Biçimleri farklı olduğunda veya bunlardan biri yanlış yazıldığında posta adreslerinin nasıl eşleştirileceğini bilmek istiyorum. Şimdiye kadar farklı çözümler buldum, ancak oldukça eski ve çok verimli olmadıklarını düşünüyorum. Eminim bazı daha iyi yöntemler vardır, bu yüzden okumak için referanslarınız varsa, bunun birkaç kişiyi ilgilendirebilecek bir konu olduğuna eminim. Bulduğum çözüm (örnekler …

14 text-mining data-cleaning

1

Bulanık dizilerdeki bir dilbilgisini tanıma

Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

13 data-mining clustering text-mining time-series correlation

«text-mining» etiketlenmiş sorular