Diğer modellere kıyasla, Rastgele Ormanların fazla uyması daha az olasıdır, ancak yine de kaçınmak için açık bir çaba sarf etmek istediğiniz bir şeydir. Model parametrelerini ayarlamak kesinlikle aşırı takılmayı önlemenin bir unsurudur, ancak tek değildir. Aslında, eğitim özelliklerinizin, özellikle Rastgele Ormanlarda, model parametrelerine göre aşırı sığmaya yol açmasının daha muhtemel olduğunu söyleyebilirim. Bu yüzden, anahtarın, her şeyden daha fazla uyuşmayı kontrol etmek için modelinizi değerlendirmek için gerçekten güvenilir bir yöntemi olduğunu düşünüyorum, bu da bizi ikinci sorunuza getiriyor.
Yukarıda belirtildiği gibi, çapraz doğrulamanın çalıştırılması aşırı takılmayı önlemenizi sağlayacaktır. CV sonuçlarına göre en iyi modelinizi seçmek, fazla olmayan bir modele yol açacaktır, bu da çanta dışı hatası gibi bir şey için geçerli değildir. R'de CV çalıştırmanın en kolay yolu caret
pakettir. Basit bir örnek aşağıdadır:
> library(caret)
>
> data(iris)
>
> tr <- trainControl(method = "cv", number = 5)
>
> train(Species ~ .,data=iris,method="rf",trControl= tr)
Random Forest
150 samples
4 predictor
3 classes: 'setosa', 'versicolor', 'virginica'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 120, 120, 120, 120, 120
Resampling results across tuning parameters:
mtry Accuracy Kappa Accuracy SD Kappa SD
2 0.96 0.94 0.04346135 0.06519202
3 0.96 0.94 0.04346135 0.06519202
4 0.96 0.94 0.04346135 0.06519202
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 2.