Veri Bilimi random-forest

1

Daha fazla Karar Ağacı ekleyerek çevrimiçi rastgele ormanlar

Bir Karar Ormanı (DT) topluluğu tarafından Rastgele Orman (RF) oluşturulur. Torbalama kullanılarak, her DT farklı bir veri alt kümesinde eğitilir. Bu nedenle, yeni verilere daha fazla karar verme eğilimi ekleyerek çevrimiçi rastgele bir orman uygulamanın herhangi bir yolu var mı? Örneğin, 10K örneğimiz var ve 10 DT eğitiyoruz. Sonra 1K …

13 random-forest online-learning

1

Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)

Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Scikit-learn ile rastgele ormanlarda özellik içe aktarımlarını kullanarak özellik seçimi

Ben var scikit-öğrenme ile rastgele ormanlarda özellik sahasını ABD'ye çizilen . Rastgele ormanları kullanarak tahmini iyileştirmek için, arsa bilgilerini özellikleri kaldırmak için nasıl kullanabilirim? Peki arsa bilgilerine dayanarak, bir özelliğin rasgele orman performansında işe yaramaz mı yoksa daha da kötü bir düşüş olup olmadığını nasıl anlayabilirim? Çizim özniteliğe dayanıyor feature_importances_ve …

12 feature-selection random-forest scikit-learn

1

Kaç LSTM hücresi kullanmalıyım?

Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Rasgele orman sınıflandırması için kategorik veri türlerine nasıl uyabilirim?

Random Forest Algorithm uygulayarak bir eğitim veri kümesinin doğruluğunu bulmam gerekiyor. Ama benim veri setimin türü hem kategorik hem de sayısal. Bu verileri sığdırmaya çalıştığımda bir hata alıyorum. 'Girdi NaN, sonsuzluk veya dtype (' float32 ') için çok büyük bir değer içeriyor'. Sorun nesne veri türleri için olabilir. RF uygulamak …

12 python data-mining random-forest

3

Python için kullanıma hazır iyi dil modelleri var mı?

Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

% 100 model doğruluğu örnek dışı veri taşması mı?

Ben cognitiveclass.ai R dersi için makine öğrenimini tamamladım ve randomforests ile denemeye başladım. R "randomForest" kütüphanesini kullanarak bir model yaptım. Model iyi ve kötü iki sınıfla sınıflandırır. Bir modelin aşırıya kaçması durumunda, kendi eğitim setindeki veriler üzerinde iyi performans gösterdiğini, ancak örnek dışı veriler üzerinde kötü performans gösterdiğini biliyorum. Modelimi …

11 r random-forest prediction overfitting

2

P (Y | X) üzerinde eğitildiğinde iyi performansa sahip bir modelim olduğu için optimum P (X | Y) bulun

Giriş Verileri: XXX -> tişörtün özellikleri (renk, logo vb.) YYY -> kar marjı Yukarıdaki ve üzerinde rastgele bir orman eğitimi aldım ve bir test verisinde makul bir doğruluk elde ettim. BendeYXXXYYY P(Y|X)P(Y|X)P(Y|X) . Şimdi, yani özelliklerinin olasılık dağılımını bulmak istiyorum, bu kadar kar marjı bekliyorum.XP(X|Y)P(X|Y)P(X|Y)XXX Bunu rastgele bir ormanla (veya …

11 machine-learning random-forest generative-models

3

Dengesiz sınıflar - Yanlış negatifler nasıl en aza indirilir?

Ben bir ikili sınıf özniteliği olan bir veri kümesi var. Sınıf +1 (kanser pozitif) ile 623 vaka ve sınıf -1 (kanser negatif) ile 101.671 vaka vardır. Çeşitli algoritmalar denedim (Naif Bayes, Random Forest, AODE, C4.5) ve hepsinin kabul edilemez yanlış negatif oranları var. Random Forest, en yüksek genel tahmin doğruluğuna …

11 classification random-forest decision-trees unbalanced-classes

4

Rasgele ormanda aşırı sığmayı nasıl önleyebilirim?

Rastgele ormanda aşırı sığmayı önlemek istiyorum. Bu bağlamda, mtry, nodesize ve maxnodes vb. Kullanmayı düşünüyorum. Lütfen bu parametreler için değerler seçmeme yardım eder misiniz? R kullanıyorum. Ayrıca, mümkünse, lütfen rastgele orman için k-kat çapraz doğrulamayı nasıl kullanabileceğimi söyle (R'de).

11 machine-learning data-mining r predictive-modeling random-forest

3

Bilimsel hesaplama için en iyi diller [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

rastgele orman ve doğrusal regresyon yoluyla özellik önemi farklıdır

Özellikleri sıralamak için Kement uygulandı ve aşağıdaki sonuçları aldı: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 Veri kümesinde 3 etiket bulunduğunu unutmayın. Farklı etiketler için özelliklerin sıralaması aynıdır. Daha sonra aynı veri kümesine rastgele orman uygulandı: rank feature score =================================== 1 b 0.17504808300002753 6 …

9 feature-selection random-forest linear-regression

3

Scikit-Learn'de Rastgele Orman Regresöründen ihracat ağırlıkları (formül)

Scytit Learn in Python (Random Forest Regressor) ile bir tahmin modeli geliştirdim ve manuel tahmin için bir excel aracı oluşturmak için her özelliğin ağırlıklarını bir şekilde çıkarmak istiyorum. Bulduğum tek şey, model.feature_importances_ama yardımcı olmuyor. Bunu başarmanın bir yolu var mı? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from …

9 python predictive-modeling regression random-forest scikit-learn

3

Amazon ec2'de R rastgele orman Hatası: 5,4 Gb boyutunda vektör tahsis edilemiyor

R'de randomForest()1000 ağaç ve yaklaşık 20 öngörücü ve 600K sıralı veri çerçeveleri kullanarak rastgele orman modelleri eğitimi alıyorum . Dizüstü bilgisayarımda her şey iyi çalışıyor, ama aynı şeyi çalıştırmak için amazon ec2'ye taşındığımda hatayı alıyorum: Error: cannot allocate vector of size 5.4 Gb Execution halted c3.4xlargeÖrnek türü kullanıyorum, bu yüzden …

9 r random-forest

«random-forest» etiketlenmiş sorular