«random-forest» etiketlenmiş sorular

Rastgele orman, birçok karar ağacının çıktılarını birleştirmeye dayanan bir makine öğrenme yöntemidir.

2
Karar Ağaçları için kategorik özellikleri kodlamak için en iyi uygulamalar?
Doğrusal regresyon için kategorik özellikleri kodlarken, bir kural vardır: aptal sayısı toplam düzey sayısından daha az olmalıdır (eşzamanlılığı önlemek için). Karar Ağaçları için benzer bir kural var mı (torbalanmış, güçlendirilmiş)? Bunu soruyorum çünkü Python'daki standart bir uygulama, nseviyeleri benim için yetersiz görünen nmankenlere (sklearns ' OneHotEncoderveya Pandas' pd.get_dummies) genişletmek gibi …

1
Rastgele Orman kısmi bağımlılık grafiğindeki y ekseninin anlamı
RandomForestR paketini kullanıyorum ve Y ekseni değerlerini kısmi bağımlılık grafiklerinde nasıl yorumlayacağım konusunda kafam karıştı. Yardım belgeleri, planın "bir değişkenin sınıf olasılığı üzerindeki marjinal etkisinin grafiksel bir tasviri" olduğunu belirtir. Ancak, hala y ekseninin tam olarak neyi temsil ettiği konusunda kafam karıştı. Özellikle, negatif değerler ne anlama geliyor? Sınıfı doğru …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Makine öğrenimini kullanarak finansal zamanları tahmin etmeyi öğrenmenin ilk adımları
Gelecekte finansal zamanlamaları 1 veya daha fazla adım tahmin etmek için makine öğrenmeyi nasıl kullanacağımı kavramaya çalışıyorum. Bazı açıklayıcı verilerle mali zamanlamalarım var ve bir model oluşturmak ve daha sonra n ileriye yönelik n-adımları tahmin etmek için modeli kullanmak istiyorum. Şimdiye kadar yaptığım şey: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- …


2
Random Forest: bir değişkenin önemli olduğunu bilirsem
Anladığım kadarıyla, rasgele orman her karar ağacını oluşturmak için rastgele mtry değişkenlerini seçiyor . Yani mtry = ncol / 3 ise, her değişken ağaçların ortalama 1 / 3'ünde kullanılır. Ve ağaçların 2 / 3'ü onları kullanmayacak. Ama tek bir değişkenin muhtemelen çok önemli olduğunu bilersem, bu değişkenin her ağaçta seçilme …

2
randomForest sınıflandırma yerine regresyonu seçer
Ben randomForest paketi R ve iris verileri kullanarak, oluşturulan rastgele orman bir sınıflandırma olduğunu ama 700 özellikleri (özellikler 28x28 piksel görüntüde her piksel) özellikleri olan bir veri kümesi kullandığınızda ve etiket sütun adlı label, randomForestüretilen regresyon. Aşağıdaki satırı kullanıyorum: rf <- randomForest(label ~ ., data=train) Sınıflandırma yerine regresyon nasıl kullanılır? …
12 r  random-forest 

2
PCA ve rastgele ormanlar
Yakın zamanda Kaggle yarışması için, eğitim setim için daha sonra rastgele bir orman sınıflandırıcısını eğitmek için kullanılacak 10 ek özellik tanımladım. PCA'yı yeni özelliklerle veri kümesinde çalıştırmaya karar verdim, birbirleriyle nasıl karşılaştırıldıklarını görmek için. Varyansın ~% 98'inin birinci bileşen (ilk özvektör) tarafından taşındığını buldum. Daha sonra sınıflandırıcıyı birçok kez eğittim, …


2
Karar Ağaçları ve Regresyon - Öngörülen değerler eğitim verisi aralığı dışında olabilir mi?
Karar ağaçları söz konusu olduğunda, öngörülen değer eğitim verisi aralığının dışında kalabilir mi? Örneğin, hedef değişkenin egzersiz veri kümesi aralığı 0-100 ise, modelimi oluşturup başka bir şeye uyguladığımda değerlerim -5 olabilir mi? veya 150? Karar ağacı gerilemesi anlayışımın hala kural tabanlı olduğu - sol / sağ ilerleme olduğu ve eğitim …

1
Yanlış pozitif sayısı nasıl azaltılır?
Yaya tespiti olarak adlandırılan görevi çözmeye çalışıyorum ve iki kategori pozitif - insanlar, negatifler - arka plan üzerinde ikili clasifer eğitiyorum. Veri setim var: pozitif sayısı = 3752 negatif sayısı = 3800 Train \ test split 80 \ 20% ve RandomForestClassifier form scikit-learn parametrelerini kullanıyorum: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) Puanı …

1
Caret paketi ile RandomForest FinalModel'i kullanmadan önce ön işleme gerek var mı?
10x10CV ile randomForest nesnesini eğitmek için düzeltme paketi kullanıyorum. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Bundan sonra, rastgele bir testSet (yeni veri) üzerinde test RF.testSet$Prediction <- predict(RFFit, newdata=testSet) Karışıklık matrisi bana modelin o kadar da kötü olmadığını gösteriyor. confusionMatrix(data=RF.testSet$Prediction, …

2
Lojistik regresyon ve rasgele orman sonuçları nasıl birleştirilir?
Makine öğreniminde yeniyim. Aynı veri kümesine lojistik regresyon ve rastgele orman uyguladım. Bu yüzden değişken önem kazanıyorum (lojistik regresyon için mutlak katsayı ve rastgele orman için değişken önem). Son bir değişken önemi elde etmek için ikisini birleştirmeyi düşünüyorum. Deneyimini herkes paylaşabilir mi? Torbalamayı, güçlendirmeyi, topluluk modellemesini kontrol ettim, ama ihtiyacım …

2
Rasgele orman için özellik seçimi ve düzeltme işareti ile parametre ayarlama
Birkaç bin özellikli verilerim var ve bilgilendirici olmayanları kaldırmak için özyinelemeli özellik seçimi (RFE) yapmak istiyorum. Bunu caret ve RFE ile yapıyorum . Ancak, en iyi regresyon uyumunu elde etmek istiyorsam (örneğin rastgele orman), ne zaman parametre ayarlamayı ( mtryRF için) yapmalıyım diye düşünmeye başladım. Yani, anladığım kadarıyla, caret trenleri …

1
Rasgele ormanlarla (veya başka bir sınıflandırıcıyla) katmanlı sınıflandırma
Yani, yaklaşık 60 x 1000 matrisim var. 1000 özellikli 60 nesne olarak bakıyorum; 60 nesne 3 sınıfa ayrılır (a, b, c). Her sınıfta 20 nesne ve gerçek sınıflandırmayı biliyoruz. Bu 60 eğitim örneği seti üzerinde denetimli öğrenme yapmak istiyorum ve hem sınıflandırıcı doğruluğu (ve ilgili metrikler) hem de 1000 özellikte …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.