İstatistikler ve Büyük Veri cart

2

Karar Ağaçları için kategorik özellikleri kodlamak için en iyi uygulamalar?

Doğrusal regresyon için kategorik özellikleri kodlarken, bir kural vardır: aptal sayısı toplam düzey sayısından daha az olmalıdır (eşzamanlılığı önlemek için). Karar Ağaçları için benzer bir kural var mı (torbalanmış, güçlendirilmiş)? Bunu soruyorum çünkü Python'daki standart bir uygulama, nseviyeleri benim için yetersiz görünen nmankenlere (sklearns ' OneHotEncoderveya Pandas' pd.get_dummies) genişletmek gibi …

13 categorical-data random-forest cart boosting

3

Artırma yöntemi neden aykırı değerlere duyarlıdır?

Artırma yöntemlerinin aykırı değerlere duyarlı olduğunu söyleyen birçok makale buldum, ancak nedenini açıklayan bir makale yok. Deneyimlerime göre aykırı değerler herhangi bir makine öğrenimi algoritması için kötüdür, ancak artırma yöntemleri neden özellikle hassastır? Aşağıdaki algoritmalar aykırı değerlere duyarlılık açısından nasıl sıralanır: boost ağacı, rastgele orman, sinir ağı, SVM ve lojistik …

12 machine-learning svm outliers cart boosting

1

Hangisi rastgele bir orman ağacı için daha iyi bir maliyet fonksiyonudur: Gini indeksi veya entropi?

Hangisi rastgele bir orman ağacı için daha iyi bir maliyet fonksiyonudur: Gini indeksi veya entropi? Clojure'da rasgele orman uygulamaya çalışıyorum.

12 classification random-forest cart

1

Karar ağaçlarında ikili bölünmeler uygulama farkı

Bir kategorik yordayıcı ilgili olduğu için, bir karar ağacında ikili bir bölünmenin pratik olarak uygulanmasını merak ediyorum .XjXjX{j} Özellikle, bir karar ağacı kullanarak öngörücü bir model oluştururken, tahmin doğruluğunu ve kararlılığını artırmak için genellikle bir çeşit örnekleme şemasını (örneğin torbalama, aşırı örnekleme vb.) Kullanacağım. Bu örnekleme rutinleri sırasında, kategorik bir …

12 cart rpart partitioning

2

Karar Ağaçları ve Regresyon - Öngörülen değerler eğitim verisi aralığı dışında olabilir mi?

Karar ağaçları söz konusu olduğunda, öngörülen değer eğitim verisi aralığının dışında kalabilir mi? Örneğin, hedef değişkenin egzersiz veri kümesi aralığı 0-100 ise, modelimi oluşturup başka bir şeye uyguladığımda değerlerim -5 olabilir mi? veya 150? Karar ağacı gerilemesi anlayışımın hala kural tabanlı olduğu - sol / sağ ilerleme olduğu ve eğitim …

12 regression predictive-models random-forest cart

2

Panel verileri için makine öğrenme algoritmaları

Bu soruda - Yapılandırılmış / hiyerarşik / çok düzeyli yordayıcıları dikkate alan karar ağaçları oluşturmak için bir yöntem var mı? - ağaçlar için panel veri yönteminden bahsediyorlar. Vector Machines ve Yapay Sinir Ağlarını desteklemek için spesifik panel veri yöntemleri var mı? Eğer öyleyse, algoritmalar ve (eğer mevcutsa) R paketleri için …

12 r machine-learning svm panel-data cart

2

Rastgele Ormanlar tahmin yanlılığı gösterir mi?

Bence bu basit bir soru, ancak neden ya da neden olmasın ardındaki mantık olmayabilir. Sormamın nedeni, yakın zamanda bir RF uygulamamı yazdım ve iyi performans göstermesine rağmen beklediğim kadar iyi performans göstermiyor ( Kaggle Fotoğraf Kalitesi Tahmin yarışması veri setine, kazanan puanlara ve bazılarına dayanarak) hangi tekniklerin kullanıldığı hakkında mevcut …

12 algorithms random-forest cart

1

Karar kütüğünü Adaboost'ta zayıf öğrenci olarak nasıl kullanabilirim?

Karar Güdük kullanarak Adaboost uygulamak istiyorum. Adaboost'un her yinelemesinde veri setimizin özellikleri kadar karar kütüğü yapmak doğru mu? Örneğin, 24 özellikli bir veri kümem varsa, her yinelemede 24 karar kütüğü sınıflandırıcısı olmalı mı? Yoksa rastgele olarak bazı özellikleri seçmeli ve tüm özellikler yerine sınıflandırıcı yapmalı mıyım?

12 machine-learning classification cart boosting

1

Gini safsızlığı ne zaman ve ne zaman bilgi kazancı kullanılır?

Birisi bana karar ağaçları için Gini safsızlığı ve bilgi kazancı ne zaman kullanılacağını açıklayabilir mi? Hangisini en iyi kullanacağımın durumlarını / örneklerini verebilir misiniz?

11 machine-learning classification data-mining cart

3

Film derecelendirme tahmini için sınıflandırma modeli

Veri madenciliği konusunda biraz yeniyim ve film derecelendirme tahmini için bir sınıflandırma modeli üzerinde çalışıyorum. IMDB'den veri setleri topladım ve modelim için bir karar ağacı ve en yakın komşu yaklaşımları kullanmayı planlıyorum. Hangi serbestçe kullanılabilir veri madenciliği aracının ihtiyacım olan işlevselliği sağlayabileceğini bilmek istiyorum.

11 classification cart

2

Karar ağacı alanı ile rastgele orman arasındaki MCMC örneklemesi

Bir rasgele orman topluluğudur karar ağaçları rastgele (ve bazen eğitim verileri torbalama) ile her ağaç oluşturmak için yalnızca belirli özelliklerini seçerek kurdu. Görünüşe göre iyi öğreniyor ve genelleştiriyorlar. Karar ağacı alanından MCMC örneklemesi yapan veya bunları rastgele ormanlarla karşılaştıran var mı? MCMC'yi çalıştırmanın ve tüm örneklenmiş ağaçları kaydetmenin hesaplama açısından …

11 mcmc monte-carlo random-forest cart

2

Bir sınıflandırma ağacını (rpart'ta) bir dizi kural halinde düzenlemek mi?

Her sınıf için üretilen karar kurallarını düzenlemek için rpart (R'de) kullanılarak karmaşık bir sınıflandırma ağacının inşa edilmesinin bir yolu var mı? Yani büyük bir ağaç almak yerine, sınıfların her biri için bir dizi kuralımız var mı? (Öyleyse nasıl?) Aşağıda örnekleri göstermek için basit bir kod örneği verilmiştir: fit <- rpart(Kyphosis …

11 r classification cart rpart

3

Seyrek öngörücüler ve yanıtlar kullanan CART benzeri yöntemler için kullanılabilir kitaplık var mı?

R'deki gbm paketini kullanarak bazı büyük veri kümeleri ile çalışıyorum. Hem yordayıcı matrisim hem de yanıt vektörüm oldukça seyrek (yani çoğu giriş sıfır). Burada yapıldığı gibi, bu seyreklikten yararlanan bir algoritma kullanarak karar ağaçları oluşturmayı umuyordum ). Bu makalede, benim durumumda olduğu gibi, çoğu öğe birçok olası özellikten sadece birkaçına …

11 r regression machine-learning classification cart

2

Torbalı bir ağaç / rastgele orman ağacı neden tek bir karar ağacından daha yüksek yanlılığa sahiptir?

Tam olarak yetiştirilmiş bir karar ağacı (yani budanmamış bir karar ağacı) düşünürsek, yüksek varyans ve düşük önyargıya sahiptir. Torbalama ve Rastgele Ormanlar bu yüksek varyanslı modelleri kullanır ve varyansı azaltmak ve böylece tahmin doğruluğunu arttırmak için bunları birleştirir. Hem Torbalama hem de Rastgele Ormanlar Bootstrap örneklemesi kullanır ve "İstatistiksel Öğrenme …

11 variance random-forest cart bias bagging

1

R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?

mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

«cart» etiketlenmiş sorular