Veri Bilimi predictive-modeling

8

Makine Öğreniminde Neden Aşırı Güçlendirme Neden?

Mantık genellikle, bir modelin üzerine oturtularak, genelleştirme kapasitesinin sınırlı olduğunu belirtir, ancak bu sadece modelleme işleminin bir modelin belirli bir karmaşıklıktan sonra gelişmesini engellediği anlamına gelebilir. Fazla donanım, modellerin verilerin karmaşıklığına bakılmaksızın daha da kötüleşmesine neden oluyor mu ve öyleyse neden bu böyle? İlgili: Yukarıdaki soruyu takip etmek, " Bir …

49 machine-learning predictive-modeling

4

Yeni gözlemler mevcutsa, bir model yeniden eğitilmeli mi?

Bu yüzden, bu konuda herhangi bir literatür bulamamıştım, ancak düşünce vermeye değer bir şey gibi görünüyor: Yeni gözlemler mevcutsa model eğitimi ve optimizasyondaki en iyi uygulamalar nelerdir? Tahminler bozulmaya başlamadan önce bir modelin yeniden eğitim süresi / sıklığını belirlemenin bir yolu var mı? Parametreler toplanmış veriler için yeniden optimize edilmişse …

28 machine-learning predictive-modeling optimization training

2

Word2vec modelini kullanarak bir kelimeyi tahmin etme

"Ben açtığınızda: bir cümle Verilen ?? kapıyı otomatik ısıtma başlar" Olası kelimelerin listesini almak istiyorum ?? bir olasılıkla. Word2vec modelinde kullanılan temel kavram, çevreleyen bağlamda verilen bir kelimeyi "tahmin etmektir". Model oluşturulduktan sonra, tahmin görevimi yeni cümleler üzerinde gerçekleştirmek için doğru bağlam vektörleri işlemi nedir? Basitçe doğrusal bir toplam mıdır? …

20 nlp predictive-modeling word-embeddings

1

LSTM kullanarak Zaman Serisi tahmini: Zaman serisini durağan hale getirmenin önemi

Durağanlık ve farklılaşma üzerine bu bağlantıda, ARIMA gibi modellerin, ortalama, varyans, otokorelasyon vb. Gibi istatistiksel özellikleri zaman içinde sabit olduğundan tahmin için durağanlaştırılmış bir zaman serisi gerektirdiği belirtilmiştir. RNN'ler doğrusal olmayan ilişkileri öğrenmek için daha iyi bir kapasiteye sahip olduklarından ( burada verildiği gibi: Zaman Serisi Tahmini için Tekrarlayan Sinir …

20 deep-learning predictive-modeling time-series forecast lstm

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Performansı artırmak için makine öğreniminde seyrek ve yoğun verileri birleştirme

Kestirimci olan seyrek özelliklerim var, ayrıca kestirimci olan bazı yoğun özelliklere de sahibim. Sınıflandırıcının genel performansını artırmak için bu özellikleri bir araya getirmem gerekiyor. Şimdi, bunları bir araya getirmeye çalıştığımda, yoğun özellikler seyrek özelliklere daha fazla hakim olma eğilimindedir, bu nedenle AUC'de sadece yoğun özelliklere sahip modele kıyasla sadece% 1 …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

3

Xgboost'taki olasılıklar nasıl tahmin edilir?

Aşağıdaki tahmin fonksiyonu -ve değerleri de vermektedir, bu yüzden olasılık olamaz. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Google & denedim pred_s <- predict(bst, x_mat_s2,type="response") ama işe yaramadı. Soru Bunun yerine olasılıklar nasıl …

16 machine-learning r predictive-modeling decision-trees

3

Topluluklar neden bu kadar mantıksız bir şekilde etkili?

Bir grup öğrenicinin mümkün olan en iyi model sonuçlarına yol açtığı aksiyomatik hale gelmiş gibi görünüyor ve örneğin, tek modellerin Kaggle gibi yarışmalar kazanması çok daha nadir hale geliyor. Toplulukların neden bu kadar lanet etkili olduğuna dair teorik bir açıklama var mı?

14 machine-learning data-mining predictive-modeling

1

Hashing Trick - gerçekte ne olur

ML algoritmaları, örneğin Vowpal Wabbit veya tıklama oranı yarışmaları ( Kaggle ) kazanan faktorizasyon makinelerinden bazıları olduğunda, özelliklerin 'karma' olduğunu belirtin, bu model için gerçekten ne anlama geliyor? İnternet eklentisinin kimliğini temsil eden ve '236BG231' gibi değerleri alan bir değişken olduğunu varsayalım. Sonra bu özelliğin rasgele bir tamsayıya hash olduğunu …

12 machine-learning predictive-modeling kaggle

1

Kaç LSTM hücresi kullanmalıyım?

Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Python için kullanıma hazır iyi dil modelleri var mı?

Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Rasgele ormanda aşırı sığmayı nasıl önleyebilirim?

Rastgele ormanda aşırı sığmayı önlemek istiyorum. Bu bağlamda, mtry, nodesize ve maxnodes vb. Kullanmayı düşünüyorum. Lütfen bu parametreler için değerler seçmeme yardım eder misiniz? R kullanıyorum. Ayrıca, mümkünse, lütfen rastgele orman için k-kat çapraz doğrulamayı nasıl kullanabileceğimi söyle (R'de).

11 machine-learning data-mining r predictive-modeling random-forest

3

Regresyon ağaçları sürekli tahmin edebilir mi?

Diyelim ki gibi düzgün bir fonksiyonum var . Bir eğitim setim var D \ subsetneq \ {(((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} ve elbette, f'yi bilmiyorum, ancak f'yi istediğim yerde değerlendirebiliyorum .f( x , y) = x2+ y2f(x,y)=x2+y2f(x, y) = …

11 predictive-modeling regression decision-trees

3

Çok partili sistemde seçim sonucunu hesaplamak için hangi regresyon kullanılır?

Parlamento seçimlerinin sonucunu tahmin etmek istiyorum. Çıktım, her bir tarafın aldığı% olacak. 2'den fazla parti var, bu nedenle lojistik regresyon uygulanabilir bir seçenek değil. Her taraf için ayrı bir gerileme yapabilirdim, ancak bu durumda sonuçlar bir şekilde birbirinden bağımsız olur. Sonuçların toplamının% 100 olmasını sağlamaz. Hangi regresyonu (veya başka bir …

11 classification r python regression predictive-modeling

3

KS, AUROC ve Gini arasındaki ilişki

Kolmogorov-Smirnov testi (KS), AUROC ve Gini katsayısı gibi yaygın model doğrulama istatistiklerinin tümü işlevsel olarak ilişkilidir. Ancak, sorum bunların hepsinin nasıl ilişkili olduğunu kanıtlamakla ilgilidir. Birinin bu ilişkileri kanıtlamama yardım edip edemeyeceğini merak ediyorum. Çevrimiçi olarak hiçbir şey bulamadım, ancak kanıtların nasıl çalıştığıyla gerçekten ilgileniyorum. Örneğin, Gini = 2AUROC-1'i biliyorum, …

11 data-mining statistics predictive-modeling accuracy

«predictive-modeling» etiketlenmiş sorular