«text-mining» etiketlenmiş sorular

Kalıpları tanıyarak metin biçimindeki verilerden veri çıkarmayla ilgili bir veri madenciliği alt kümesini ifade eder. Metin madenciliğinin amacı, belirli bir belgeyi otomatik olarak bir dizi kategoriden birinde sınıflandırmak ve bu performansı dinamik olarak iyileştirerek makine öğreniminin bir örneği haline getirmektir. Bu tür metin madenciliğinin bir örneği, e-posta için kullanılan spam filtreleridir.

3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Keras 'Embedding' katmanı nasıl çalışır?
Keras kütüphanesinde 'Katıştırma' katmanının çalışmasını anlamalısınız. Python'da şu kodu çalıştırıyorum import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) aşağıdaki çıktıyı verir input_array = [[4 1 3 3 3]] output_array = …

6
İki dizi dizgenin (R cinsinden) eşleştirilmesi nasıl yapılır?
Bunun nasıl adlandırılması gerektiğinden emin değilim, bu yüzden daha iyi bir terim biliyorsanız lütfen beni düzeltin. İki listem var. 55 öğeden biri (örneğin: bir dizge vektörü), diğer 92 dizisi. Öğe adları benzer ancak aynı değil. Ben en iyi aday bulmak istediğiniz s 55 listedeki öğeleri (Ben o zaman geçmesi ve …
36 r  text-mining 

6
Metnin istatistiksel sınıflandırması
İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

4
Dizeleri ayrıştırmak için makine öğrenme teknikleri?
Çok fazla adres dizgim var: 1600 Pennsylvania Ave, Washington, DC 20500 USA Onları bileşenlerine göre ayrıştırmak istiyorum: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ancak elbette veriler kirli: birçok ülkede birçok dilde geliyor, farklı şekillerde yazılmış, yazım hataları var, eksik parçalar var, fazladan önemsiz şeyler …

3
R, metin sınıflandırma görevlerine ne kadar iyi ölçeklenir? [kapalı]
R ile hız kazanmaya çalışıyorum. Sonunda metin sınıflandırma yapmak için R kütüphanelerini kullanmak istiyorum. Metin sınıflandırma söz konusu olduğunda, insanların R'nin ölçeklenebilirliği ile ilgili deneyimlerinin neler olduğunu merak ediyordum. Büyük boyutlu verilerle karşılaşmam muhtemel (~ 300k boyutları). Özellikle sınıflandırma algoritmaları olarak SVM ve Random Forest kullanmaya bakıyorum. R kütüphaneleri sorun …

2
Saf Bayes ve multinomial saf Bayes arasındaki fark
Daha önce Naive Bayes sınıflandırıcı ile çalıştım . Son zamanlarda Multinomial Naive Bayes hakkında okudum . Ayrıca Posterior Olasılık = (Önceki * Olabilirlik) / (Kanıt) . Naive Bayes ve Multinomial Naive Bayes arasında bulduğum tek önemli fark (bu sınıflandırıcıları programlarken) Multinominal Naif Bayes olasılık olarak hesaplar bir kelime / jeton …


1
Çapraz doğrulama, doğrulama kümesi için uygun bir alternatif midir?
Metin sınıflandırmasında yaklaşık 800 örnekli bir eğitim setim ve yaklaşık 150 örnekli bir test setim var. Test seti hiç kullanılmamış ve sonuna kadar kullanılmayı bekliyor. Sınıflayıcıları ve özellikleri ayarlarken ve ayarlarken 10 kat çapraz doğrulama ile tüm 800 örnek eğitim setini kullanıyorum. Bu, ayrı bir doğrulama setine sahip olmadığım anlamına …

7
Naive Bayes'te test setinde bilinmeyen kelimeler varken neden Laplace yumuşatma ile uğraşıyorsunuz?
Bugün Naive Bayes Sınıflandırması'nı okuyordum. Parametre Tahmini başlığı altında, 1 yumuşatma ile birlikte okudum : yapalımccc (örneğin, pozitif veya negatif olarak) bir sınıfını ifade ve izin www bir belirteç ya da kelime bakın. İçin maksimum olabilirlik tahmin P(w|c)P(w|c)P(w|c) olduğucount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

3
Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri
LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler. Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

2
Metin Sınıflandırması için Sözcük Torbası: Neden TFIDF yerine sadece kelime frekanslarını kullanmıyorsunuz?
Metin sınıflandırma için ortak bir yaklaşım, bir “sözcük çantası” ndan bir sınıflandırıcı yetiştirmektir. Kullanıcı sınıflandırılacak metni alır ve her nesnedeki kelimelerin sıklıklarını sayar, ardından elde edilen matrisi yönetilebilir bir büyüklükte tutmak için bir çeşit düzeltme yapılır. Genellikle kullanıcıların TFIDF kullanarak kendi özellik vektörlerini oluşturduklarını görüyorum. Başka bir deyişle, yukarıda belirtilen …

1
Duygu analizi için paragraf vektörlerini kullanma konusunda bildirilen son teknoloji performans çoğaltılmış mı?
Le ve Mikolov'un " Cümle ve Belgelerin Dağıtılmış Temsilleri " başlıklı ICML 2014 belgesindeki sonuçlardan etkilendim . "Paragraf vektörleri" olarak adlandırdıkları teknik, word2vec modelinin bir uzantısına dayanarak, keyfi olarak uzun paragrafların / belgelerin denetimsiz temsillerini öğrenir. Bu makale, bu teknik kullanılarak duyarlılık analizinde en son teknolojiye sahip performansı göstermektedir. Bu …

3
Sınıflandırma için yarı denetimli öğrenme, aktif öğrenme ve derin öğrenme
Tüm kaynaklar güncellendiğinde son düzenleme: Bir proje için, sınıflandırma için makine öğrenimi algoritmaları uyguluyorum. Zorluk: Oldukça sınırlı etiketlenmiş veriler ve çok daha fazla etiketlenmemiş veriler. Hedefler: Yarı denetimli sınıflandırma uygulayın Bir şekilde yarı denetimli etiketleme işlemi uygulayın (aktif öğrenme olarak bilinir) EM, Transductive SVM veya S3VM (Yarı Denetimli SVM) veya …

2
Doğal Dil İşleme neden Makine Öğrenimi alanına girmiyor? [kapalı]
Şu anda olduğu gibi, bu soru Soru-Cevap formatımıza uygun değil. Yanıtların gerçekler, referanslar veya uzmanlık tarafından desteklenmesini bekliyoruz, ancak bu soru muhtemelen tartışma, tartışma, oylama veya genişletilmiş tartışma talep edecektir. Bu sorunun çözülebileceğini ve muhtemelen yeniden açılabileceğini düşünüyorsanız, yardım için yardım merkezini ziyaret edin . 7 yıl önce kapalı . …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.