«cart» etiketlenmiş sorular

'Sınıflandırma ve Regresyon Ağaçları'. CART popüler bir makine öğrenim tekniğidir ve rastgele ormanlar ve eğim artırma makinelerinin ortak uygulamaları gibi tekniklerin temelini oluşturur.

2
Karar Ağaçları için kategorik özellikleri kodlamak için en iyi uygulamalar?
Doğrusal regresyon için kategorik özellikleri kodlarken, bir kural vardır: aptal sayısı toplam düzey sayısından daha az olmalıdır (eşzamanlılığı önlemek için). Karar Ağaçları için benzer bir kural var mı (torbalanmış, güçlendirilmiş)? Bunu soruyorum çünkü Python'daki standart bir uygulama, nseviyeleri benim için yetersiz görünen nmankenlere (sklearns ' OneHotEncoderveya Pandas' pd.get_dummies) genişletmek gibi …

3
Artırma yöntemi neden aykırı değerlere duyarlıdır?
Artırma yöntemlerinin aykırı değerlere duyarlı olduğunu söyleyen birçok makale buldum, ancak nedenini açıklayan bir makale yok. Deneyimlerime göre aykırı değerler herhangi bir makine öğrenimi algoritması için kötüdür, ancak artırma yöntemleri neden özellikle hassastır? Aşağıdaki algoritmalar aykırı değerlere duyarlılık açısından nasıl sıralanır: boost ağacı, rastgele orman, sinir ağı, SVM ve lojistik …


1
Karar ağaçlarında ikili bölünmeler uygulama farkı
Bir kategorik yordayıcı ilgili olduğu için, bir karar ağacında ikili bir bölünmenin pratik olarak uygulanmasını merak ediyorum .XjXjX{j} Özellikle, bir karar ağacı kullanarak öngörücü bir model oluştururken, tahmin doğruluğunu ve kararlılığını artırmak için genellikle bir çeşit örnekleme şemasını (örneğin torbalama, aşırı örnekleme vb.) Kullanacağım. Bu örnekleme rutinleri sırasında, kategorik bir …

2
Karar Ağaçları ve Regresyon - Öngörülen değerler eğitim verisi aralığı dışında olabilir mi?
Karar ağaçları söz konusu olduğunda, öngörülen değer eğitim verisi aralığının dışında kalabilir mi? Örneğin, hedef değişkenin egzersiz veri kümesi aralığı 0-100 ise, modelimi oluşturup başka bir şeye uyguladığımda değerlerim -5 olabilir mi? veya 150? Karar ağacı gerilemesi anlayışımın hala kural tabanlı olduğu - sol / sağ ilerleme olduğu ve eğitim …

2
Panel verileri için makine öğrenme algoritmaları
Bu soruda - Yapılandırılmış / hiyerarşik / çok düzeyli yordayıcıları dikkate alan karar ağaçları oluşturmak için bir yöntem var mı? - ağaçlar için panel veri yönteminden bahsediyorlar. Vector Machines ve Yapay Sinir Ağlarını desteklemek için spesifik panel veri yöntemleri var mı? Eğer öyleyse, algoritmalar ve (eğer mevcutsa) R paketleri için …

2
Rastgele Ormanlar tahmin yanlılığı gösterir mi?
Bence bu basit bir soru, ancak neden ya da neden olmasın ardındaki mantık olmayabilir. Sormamın nedeni, yakın zamanda bir RF uygulamamı yazdım ve iyi performans göstermesine rağmen beklediğim kadar iyi performans göstermiyor ( Kaggle Fotoğraf Kalitesi Tahmin yarışması veri setine, kazanan puanlara ve bazılarına dayanarak) hangi tekniklerin kullanıldığı hakkında mevcut …

1
Karar kütüğünü Adaboost'ta zayıf öğrenci olarak nasıl kullanabilirim?
Karar Güdük kullanarak Adaboost uygulamak istiyorum. Adaboost'un her yinelemesinde veri setimizin özellikleri kadar karar kütüğü yapmak doğru mu? Örneğin, 24 özellikli bir veri kümem varsa, her yinelemede 24 karar kütüğü sınıflandırıcısı olmalı mı? Yoksa rastgele olarak bazı özellikleri seçmeli ve tüm özellikler yerine sınıflandırıcı yapmalı mıyım?


3
Film derecelendirme tahmini için sınıflandırma modeli
Veri madenciliği konusunda biraz yeniyim ve film derecelendirme tahmini için bir sınıflandırma modeli üzerinde çalışıyorum. IMDB'den veri setleri topladım ve modelim için bir karar ağacı ve en yakın komşu yaklaşımları kullanmayı planlıyorum. Hangi serbestçe kullanılabilir veri madenciliği aracının ihtiyacım olan işlevselliği sağlayabileceğini bilmek istiyorum.

2
Karar ağacı alanı ile rastgele orman arasındaki MCMC örneklemesi
Bir rasgele orman topluluğudur karar ağaçları rastgele (ve bazen eğitim verileri torbalama) ile her ağaç oluşturmak için yalnızca belirli özelliklerini seçerek kurdu. Görünüşe göre iyi öğreniyor ve genelleştiriyorlar. Karar ağacı alanından MCMC örneklemesi yapan veya bunları rastgele ormanlarla karşılaştıran var mı? MCMC'yi çalıştırmanın ve tüm örneklenmiş ağaçları kaydetmenin hesaplama açısından …

2
Bir sınıflandırma ağacını (rpart'ta) bir dizi kural halinde düzenlemek mi?
Her sınıf için üretilen karar kurallarını düzenlemek için rpart (R'de) kullanılarak karmaşık bir sınıflandırma ağacının inşa edilmesinin bir yolu var mı? Yani büyük bir ağaç almak yerine, sınıfların her biri için bir dizi kuralımız var mı? (Öyleyse nasıl?) Aşağıda örnekleri göstermek için basit bir kod örneği verilmiştir: fit <- rpart(Kyphosis …
11 r  classification  cart  rpart 

3
Seyrek öngörücüler ve yanıtlar kullanan CART benzeri yöntemler için kullanılabilir kitaplık var mı?
R'deki gbm paketini kullanarak bazı büyük veri kümeleri ile çalışıyorum. Hem yordayıcı matrisim hem de yanıt vektörüm oldukça seyrek (yani çoğu giriş sıfır). Burada yapıldığı gibi, bu seyreklikten yararlanan bir algoritma kullanarak karar ağaçları oluşturmayı umuyordum ). Bu makalede, benim durumumda olduğu gibi, çoğu öğe birçok olası özellikten sadece birkaçına …

2
Torbalı bir ağaç / rastgele orman ağacı neden tek bir karar ağacından daha yüksek yanlılığa sahiptir?
Tam olarak yetiştirilmiş bir karar ağacı (yani budanmamış bir karar ağacı) düşünürsek, yüksek varyans ve düşük önyargıya sahiptir. Torbalama ve Rastgele Ormanlar bu yüksek varyanslı modelleri kullanır ve varyansı azaltmak ve böylece tahmin doğruluğunu arttırmak için bunları birleştirir. Hem Torbalama hem de Rastgele Ormanlar Bootstrap örneklemesi kullanır ve "İstatistiksel Öğrenme …

1
R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?
mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.