«text-mining» etiketlenmiş sorular

Kalıpları tanıyarak metin biçimindeki verilerden veri çıkarmayla ilgili bir veri madenciliği alt kümesini ifade eder. Metin madenciliğinin amacı, belirli bir belgeyi otomatik olarak bir dizi kategoriden birinde sınıflandırmak ve bu performansı dinamik olarak iyileştirerek makine öğreniminin bir örneği haline getirmektir. Bu tür metin madenciliğinin bir örneği, e-posta için kullanılan spam filtreleridir.


1
Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?
100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Özgeçmiş verilerine dayanarak iş sınıflandırmasını yapmak için hangi algoritmaları kullanmalıyım?
Not: R'de her şeyi yapıyorum. Sorun şöyle devam ediyor: Temel olarak, özgeçmişlerin bir listesi (CV) var. Bazı adaylar daha önce iş tecrübesine sahip olacak, bazıları ise işe yaramayacak. Buradaki amaç: Özgeçmişlerindeki metinlere dayanarak, onları farklı iş sektörlerine göre sınıflandırmak istiyorum. Özellikle adayların herhangi bir deneyime sahip olmadığı / öğrenci olmadığı …


3
Derin Öğrenme kütüphanelerini kullanarak Metinden anahtar kelime / kelime öbeği çıkarma
Belki de bu çok geniş, ancak bir metin özetleme görevinde derin öğrenmenin nasıl kullanılacağına dair referanslar arıyorum. Standart kelime frekansı yaklaşımlarını ve cümle sıralamasını kullanarak metin özetlemeyi zaten uyguladım, ancak bu görev için derin öğrenme tekniklerini kullanma olasılığını araştırmak istiyorum. Ben de duygu analizi için Convolutional Nöral Ağlar (CNN) kullanarak …



3
İlk anahtar kelimelere dayalı olarak alakalı kelimelerin listesi nasıl büyütülür?
Kısa bir süre önce Google E-Tablolar'da sunulan harika bir özellik gördüm : ardışık hücrelere birkaç alakalı anahtar kelime yazarak başlayın, "mavi", "yeşil", "sarı" deyin ve otomatik olarak benzer anahtar kelimeler (bu durumda) oluşturur , diğer renkler). Bu YouTube videosunda daha fazla örneğe bakın . Bunu kendi programımda çoğaltmak istiyorum. Freebase'i …

4
Meta verilere sahip metin belgelerine nasıl açıklama eklenir?
Çok sayıda metin belgesine sahip olmak (doğal dilde, yapılandırılmamış), bazı semantik meta verilerle açıklama eklemenin olası yolları nelerdir? Örneğin, kısa bir belge düşünün: I saw the company's manager last day. Ondan bilgi alabilmek için, daha az belirsiz olması için ek verilerle açıklanması gerekir. Bu tür meta verileri bulma süreci söz …

2
Doc2Vec - Paragraflar nasıl etiketlenir (gensim)
Ben gensim doc2vec ile cümleler / paragraflar / belgeleri nasıl etiketlemek (etiket) merak ediyorum - pratik bir bakış açısından. Her cümlenin / paragrafın / belgenin kendine özgü etiketi (örneğin "Sent_123") olması gerekiyor mu? "Hangi sözcüklerin veya cümlelerin" Sent_123 "etiketli tek bir cümleyle en çok benzediğini söylemek istiyorsanız bu yararlı görünüyor. …

1
Metin kümeleme için algoritmalar
Çok sayıda cümleyi anlamlarına göre gruplara ayırma problemim var. Bu, çok sayıda cümleniz olduğunda ve anlamlarına göre gruplandırmak istediğinizde bir soruna benzer. Bunu yapmak için hangi algoritmalar öneriliyor? Önceden kümelerin sayısını bilmiyorum (ve daha fazla veri geliyor gibi kümeler de değişebilir), normalde her cümleyi temsil etmek için hangi özellikler kullanılır? …

5
deniz dibi ısı haritasını büyüt
corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Metnin en bilgilendirici bölümlerini belgelerden çıkarın
Mevcut belge hakkında en fazla bilgiyi içeren metnin bir kısmını çıkartma hakkında herhangi bir makale veya tartışma var mı? Örneğin, aynı etki alanından büyük bir belge topluluğum var. Metnin, tek bir belgenin bahsettiği temel bilgileri tutan kısımları vardır. Bu parçalardan bazılarını çıkarmak ve bunları metnin bir özeti olarak kullanmak istiyorum. …
16 nlp  text-mining 

4
Posta adresleri bulanık eşleştirme nasıl yapılır?
Biçimleri farklı olduğunda veya bunlardan biri yanlış yazıldığında posta adreslerinin nasıl eşleştirileceğini bilmek istiyorum. Şimdiye kadar farklı çözümler buldum, ancak oldukça eski ve çok verimli olmadıklarını düşünüyorum. Eminim bazı daha iyi yöntemler vardır, bu yüzden okumak için referanslarınız varsa, bunun birkaç kişiyi ilgilendirebilecek bir konu olduğuna eminim. Bulduğum çözüm (örnekler …

1
Bulanık dizilerdeki bir dilbilgisini tanıma
Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.