Rastgele bir orman modeli çalıştırmak için birinden bir R betiği aldım. Bazı çalışan verileriyle değiştirdim ve çalıştırdım. Gönüllü ayrılıkları tahmin etmeye çalışıyoruz.
İşte bazı ek bilgiler: bu bir sınıflandırma modelidir 0 = çalışan kaldı, 1 = çalışan sonlandı, şu anda sadece bir düzine yordayıcı değişkenine bakıyoruz, veriler "dengesiz" ifadesiyle 7’deki kayıtların 7’yi oluşturduğu ayarlanan toplam kaydın% 'si.
Modeli çeşitli mtry ve ntree seçimleriyle yaptım ancak aşağıya yerleştim. OOB% 6.8 olduğunu düşünüyorum, ancak karışma matrisi terimler için farklı bir hikaye anlatıyor gibi görünüyor çünkü hata oranı% 92,79'da oldukça yüksek çünkü bu modeli kullanamayacağımı ve kullanamayacağımı varsaydığım için doğru muyum? terimleri tahmin etmek için yüksek hata oranı? veya RF'yi kullanmak ve terimleri tahmin etmek için daha küçük bir hata oranı almak için yapabileceğim bir şey var mı?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908