«random-forest» etiketlenmiş sorular

Rastgele orman, birçok karar ağacının çıktılarını birleştirmeye dayanan bir makine öğrenme yöntemidir.

1
Rastgele Ormanlar MNIST'teki% 2.8'lik test hatasından daha iyisini yapabilir mi?
Ben onları denemek düşündüm bu yüzden vb MNIST, cifar, STL-10, Rastgele Ormanları uygulanması ile ilgili herhangi literatürü bulamadı permütasyon değişmeyen MNIST kendim. İçinde R , I güvenilir: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Bu 2 saat sürdü ve% 2.8 test hatası aldı. Ben de denedim scikit-öğrenme ile, RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70 …


1
R doğrusal regresyon kategorik değişkeni “gizli” değer
Bu sadece birkaç kez karşılaştığım bir örnektir, bu yüzden örnek verilerim yok. R'de doğrusal regresyon modeli çalıştırmak: a.lm = lm(Y ~ x1 + x2) x1sürekli bir değişkendir. x2kategoriktir ve üç değeri vardır, örneğin "Düşük", "Orta" ve "Yüksek". Bununla birlikte, R tarafından verilen çıktı aşağıdaki gibi olacaktır: summary(a.lm) Estimate Std. Error …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Popülasyonlar arasındaki farklılıkları inceleme
Diyelim ki iki popülasyondan bir örnek aldık: Ave B. Bu popülasyonların bireylerden oluştuğunu varsayalım ve bireyleri özellikler açısından tanımlamayı seçiyoruz. Bu özelliklerin bazıları kategoriktir (örn. İşe giderler mi?) Ve bazıları sayısaldır (örn. Boyları). Şu özellikleri çağıralım: . Bu özelliklerden yüzlerce (örneğin n = 200) toplarız, basitlik olduğunu varsayalım, tüm bireylerde …

1
Cebirsel sınıflandırıcılar, daha fazla bilgi?
Cebirsel sınıflandırıcıları okudum : hızlı çapraz doğrulama, çevrimiçi eğitim ve paralel eğitim için genel bir yaklaşım ve türetilmiş algoritmaların performansına hayran kaldım . Bununla birlikte, Naive Bayes'in (ve GBM'lerin) ötesinde, çerçeveye uyarlanmış çok fazla algoritma olmadığı görülmektedir. Farklı sınıflandırıcılar üzerinde çalışan başka makaleler var mı? (SVM'ler, Rastgele Ormanlar)

2
Regresyondaki daha yeni gözlemlere daha fazla ağırlık verilmesi
R'deki son gözlemlere nasıl daha fazla ağırlık verebilirim? Bunu sıkça sorulan bir soru veya istek olarak kabul ediyorum, ancak bunun nasıl uygulanacağını bulmakta zorlanıyorum. Bunun için çok fazla aramaya çalıştım ama iyi bir pratik örnek bulamıyorum. Örneğimde zaman içinde büyük bir veri setim olacaktı. Daha yeni olan veri satırlarının üstel …

2
Artırma için çantadan çıkma hatası tahmini?
Rastgele Orman'da her ağaç, verilerin benzersiz bir takviye örneğine paralel olarak büyütülür. Her takviye örneğinin benzersiz gözlemlerin yaklaşık% 63'ünü içermesi beklendiğinden, bu, ağacın test edilmesi için kullanılabilecek gözlemlerin yaklaşık% 37'sini dışarıda bırakır. Şimdi, Stokastik Degrade benzer bir tahmini var gibi görünüyor :OOBerrorOOBerrorOOB_{error} Bag.fraction 0 değerinden daha büyük olarak ayarlanırsa (0,5 …

1
RandomForest-sklearn'de sınıflandırma eşiği
1) Sklearn'deki RandomForest'te sınıflandırma eşiğini (varsayılan olarak 0,5 olduğunu düşünüyorum) nasıl değiştirebilirim? 2) sklearn'de nasıl yetersiz numune alabilirim? 3) RandomForest sınıflandırıcısından şu sonucu aldım: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 ort / toplam 0,75 0,74 0,73 …

1
RandomForestRegressor için çanta dışı hata tahminini yorumlama
Verilerimde RandomForest regresörü kullanıyorum ve oob skorunun 0.83 olarak elde edildiğini görebiliyordum. Böyle olmanın nasıl bir şey olduğu konusunda emin değilim. Yani hedeflerim 10 ^ 7 aralığında yüksek değerler. Eğer MSE ise, o zaman çok daha yüksek olmalıydı. Burada 0.83'ün ne anlama geldiğini anlamıyorum. Sklearn araç setinin python'un RandomForestRegressor'unu kullanıyorum. …

1
Bazı girdilerin eksik değerleri (NA) olduğunda randomForest (R) ile tahmin
randomForestYeni bir vakanın sınıfını öngören bir uygulamada kullanmak istediğim iyi bir sınıflandırma modelim var. Yeni vaka kaçınılmaz olarak eksik değerlere sahip. Tahmin NA'lar için böyle çalışmaz. Bunu nasıl yapmalıyım? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # …

1
Gözlenen ve beklenen olayları nasıl karşılaştırırım?
Diyelim ki 4 olası olayın sıklık örneğine sahibim: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 ve olaylarımın gerçekleşmesi için beklenen olasılıklarım var: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dört olayın gözlemlenen frekanslarının toplamı ile (18) Olayların beklenen frekanslarını hesaplayabilir …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Karışık modeller için parametrik, yarı parametrik ve parametrik olmayan önyükleme
Bu makaleden aşağıdaki greftler alınmıştır . Ben bootstrap için acemi ve R bootpaket ile doğrusal karışık model için parametrik, yarı parametrik ve parametrik olmayan bootstrapping bootstrapping uygulamaya çalışıyorum . R Kodu İşte benim Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
Rasgele orman regresyonunda tepki dağılımına bağlı yanlılık
Regresyon için R (R sürüm 2.13.1, randomForest sürüm 4.6-2) randomForest paketini kullanıyorum ve sonuçlarımda önemli bir önyargı fark ettim: tahmin hatası yanıt değişkeninin değerine bağlıdır. Yüksek değerler az tahmin edilir ve düşük değerler fazla tahmin edilir. İlk başta bunun verilerimin bir sonucu olduğundan şüphelendim, ancak aşağıdaki basit örnek bunun rastgele …

1
Alternatifler ile lojistik regresyon arasındaki pratik ve yorum farklılıkları nelerdir?
R'de lojistik regresyona alternatifler hakkında yeni bir soru , randomForest, gbm, rpart, bayesglm ve genelleştirilmiş katkı modelleri de dahil olmak üzere çeşitli cevaplar verdi. Bu yöntemler ile lojistik regresyon arasındaki pratik ve yorum farklılıkları nelerdir? Lojistik regresyona göre ne gibi varsayımlar yapıyorlar (ya da yapmıyorlar)? Hipotez testi için uygun mu? …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.