İstatistikler ve Büyük Veri text-mining

3

Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu

Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Keras 'Embedding' katmanı nasıl çalışır?

Keras kütüphanesinde 'Katıştırma' katmanının çalışmasını anlamalısınız. Python'da şu kodu çalıştırıyorum import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) aşağıdaki çıktıyı verir input_array = [[4 1 3 3 3]] output_array = …

70 text-mining word-embeddings keras

6

İki dizi dizgenin (R cinsinden) eşleştirilmesi nasıl yapılır?

Bunun nasıl adlandırılması gerektiğinden emin değilim, bu yüzden daha iyi bir terim biliyorsanız lütfen beni düzeltin. İki listem var. 55 öğeden biri (örneğin: bir dizge vektörü), diğer 92 dizisi. Öğe adları benzer ancak aynı değil. Ben en iyi aday bulmak istediğiniz s 55 listedeki öğeleri (Ben o zaman geçmesi ve …

36 r text-mining

6

Metnin istatistiksel sınıflandırması

İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

32 classification information-retrieval text-mining

4

Dizeleri ayrıştırmak için makine öğrenme teknikleri?

Çok fazla adres dizgim var: 1600 Pennsylvania Ave, Washington, DC 20500 USA Onları bileşenlerine göre ayrıştırmak istiyorum: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ancak elbette veriler kirli: birçok ülkede birçok dilde geliyor, farklı şekillerde yazılmış, yazım hataları var, eksik parçalar var, fazladan önemsiz şeyler …

30 machine-learning text-mining

3

R, metin sınıflandırma görevlerine ne kadar iyi ölçeklenir? [kapalı]

R ile hız kazanmaya çalışıyorum. Sonunda metin sınıflandırma yapmak için R kütüphanelerini kullanmak istiyorum. Metin sınıflandırma söz konusu olduğunda, insanların R'nin ölçeklenebilirliği ile ilgili deneyimlerinin neler olduğunu merak ediyordum. Büyük boyutlu verilerle karşılaşmam muhtemel (~ 300k boyutları). Özellikle sınıflandırma algoritmaları olarak SVM ve Random Forest kullanmaya bakıyorum. R kütüphaneleri sorun …

30 r machine-learning svm text-mining random-forest

2

Saf Bayes ve multinomial saf Bayes arasındaki fark

Daha önce Naive Bayes sınıflandırıcı ile çalıştım . Son zamanlarda Multinomial Naive Bayes hakkında okudum . Ayrıca Posterior Olasılık = (Önceki * Olabilirlik) / (Kanıt) . Naive Bayes ve Multinomial Naive Bayes arasında bulduğum tek önemli fark (bu sınıflandırıcıları programlarken) Multinominal Naif Bayes olasılık olarak hesaplar bir kelime / jeton …

29 bayesian classification text-mining naive-bayes

4

Konu modellemesi yapmak için R paketleri / LDA: sadece `topicmodels 've` lda` [kapalı]

Bana öyle geliyor ki Latent Dirichlet Allocation'ı yalnızca iki R paketi yapabiliyor : Birincisi, ldaJonathan Chang tarafından yazılmış; Diğeri topicmodelsBettina Grün ve Kurt Hornik tarafından yazılmıştır. Bu iki paket arasındaki performans, uygulama detayları ve genişletilebilirlik açısından farklar nelerdir?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

1

Çapraz doğrulama, doğrulama kümesi için uygun bir alternatif midir?

Metin sınıflandırmasında yaklaşık 800 örnekli bir eğitim setim ve yaklaşık 150 örnekli bir test setim var. Test seti hiç kullanılmamış ve sonuna kadar kullanılmayı bekliyor. Sınıflayıcıları ve özellikleri ayarlarken ve ayarlarken 10 kat çapraz doğrulama ile tüm 800 örnek eğitim setini kullanıyorum. Bu, ayrı bir doğrulama setine sahip olmadığım anlamına …

27 machine-learning classification cross-validation text-mining

7

Naive Bayes'te test setinde bilinmeyen kelimeler varken neden Laplace yumuşatma ile uğraşıyorsunuz?

Bugün Naive Bayes Sınıflandırması'nı okuyordum. Parametre Tahmini başlığı altında, 1 yumuşatma ile birlikte okudum : yapalımccc (örneğin, pozitif veya negatif olarak) bir sınıfını ifade ve izin www bir belirteç ya da kelime bakın. İçin maksimum olabilirlik tahmin P(w|c)P(w|c)P(w|c) olduğucount(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

3

Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri

LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler. Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

26 machine-learning text-mining natural-language topic-models

2

Metin Sınıflandırması için Sözcük Torbası: Neden TFIDF yerine sadece kelime frekanslarını kullanmıyorsunuz?

Metin sınıflandırma için ortak bir yaklaşım, bir “sözcük çantası” ndan bir sınıflandırıcı yetiştirmektir. Kullanıcı sınıflandırılacak metni alır ve her nesnedeki kelimelerin sıklıklarını sayar, ardından elde edilen matrisi yönetilebilir bir büyüklükte tutmak için bir çeşit düzeltme yapılır. Genellikle kullanıcıların TFIDF kullanarak kendi özellik vektörlerini oluşturduklarını görüyorum. Başka bir deyişle, yukarıda belirtilen …

24 machine-learning classification text-mining

1

Duygu analizi için paragraf vektörlerini kullanma konusunda bildirilen son teknoloji performans çoğaltılmış mı?

Le ve Mikolov'un " Cümle ve Belgelerin Dağıtılmış Temsilleri " başlıklı ICML 2014 belgesindeki sonuçlardan etkilendim . "Paragraf vektörleri" olarak adlandırdıkları teknik, word2vec modelinin bir uzantısına dayanarak, keyfi olarak uzun paragrafların / belgelerin denetimsiz temsillerini öğrenir. Bu makale, bu teknik kullanılarak duyarlılık analizinde en son teknolojiye sahip performansı göstermektedir. Bu …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

Sınıflandırma için yarı denetimli öğrenme, aktif öğrenme ve derin öğrenme

Tüm kaynaklar güncellendiğinde son düzenleme: Bir proje için, sınıflandırma için makine öğrenimi algoritmaları uyguluyorum. Zorluk: Oldukça sınırlı etiketlenmiş veriler ve çok daha fazla etiketlenmemiş veriler. Hedefler: Yarı denetimli sınıflandırma uygulayın Bir şekilde yarı denetimli etiketleme işlemi uygulayın (aktif öğrenme olarak bilinir) EM, Transductive SVM veya S3VM (Yarı Denetimli SVM) veya …

19 machine-learning classification software svm text-mining

2

Doğal Dil İşleme neden Makine Öğrenimi alanına girmiyor? [kapalı]

Şu anda olduğu gibi, bu soru Soru-Cevap formatımıza uygun değil. Yanıtların gerçekler, referanslar veya uzmanlık tarafından desteklenmesini bekliyoruz, ancak bu soru muhtemelen tartışma, tartışma, oylama veya genişletilmiş tartışma talep edecektir. Bu sorunun çözülebileceğini ve muhtemelen yeniden açılabileceğini düşünüyorsanız, yardım için yardım merkezini ziyaret edin . 7 yıl önce kapalı . …

18 machine-learning text-mining natural-language

«text-mining» etiketlenmiş sorular