Bunun oldukça özel bir R
soru olduğunu biliyorum , ancak hatalı açıklanan oranındaki varyans oranını düşünüyorum . İşte gidiyor.
R
Paketi kullanmaya çalışıyorum randomForest
. Bazı eğitim verilerim ve test verilerim var. Rastgele bir orman modeline uyduğumda, randomForest
işlev test etmek için yeni test verileri girmenize olanak sağlar. Daha sonra bu yeni verilerde açıklanan varyans yüzdesini gösterir. Buna baktığımda bir numara alıyorum.
predict()
Eğitim verilerinden elde edilen modele dayalı test verilerinin sonuç değerini tahmin etmek için bu işlevi kullandığımda ve bu değerler ile test verileri için gerçek sonuç değerleri arasındaki kareli korelasyon katsayısını alıyorum, farklı bir sayı alıyorum. Bu değerler eşleşmiyor .
İşte R
sorunu göstermek için bazı kodlar.
# use the built in iris data
data(iris)
#load the randomForest library
library(randomForest)
# split the data into training and testing sets
index <- 1:nrow(iris)
trainindex <- sample(index, trunc(length(index)/2))
trainset <- iris[trainindex, ]
testset <- iris[-trainindex, ]
# fit a model to the training set (column 1, Sepal.Length, will be the outcome)
set.seed(42)
model <- randomForest(x=trainset[ ,-1],y=trainset[ ,1])
# predict values for the testing set (the first column is the outcome, leave it out)
predicted <- predict(model, testset[ ,-1])
# what's the squared correlation coefficient between predicted and actual values?
cor(predicted, testset[, 1])^2
# now, refit the model using built-in x.test and y.test
set.seed(42)
randomForest(x=trainset[ ,-1], y=trainset[ ,1], xtest=testset[ ,-1], ytest=testset[ ,1])