Tüm Türler Dağıtım Modellemesi literatürü, olasılıkları (örneğin, RandomForests) çıkaran bir model kullanarak bir türün varlığını / yokluğunu tahmin ederken, bir türün varlığını veya yokluğunu gerçekte sınıflandırabilme eşik olasılığının seçilmesinin önemli olduğunu ve her zaman 0,5 varsayılanına bağlı değildir. Bu konuda yardıma ihtiyacım var! İşte benim kod:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
Bundan, varlığı tahmin edilen olasılıklardan sınıflandırmak için kullanmak istediğim eşiğin, 0,5'in varsayılan değeri değil 0,7 olduğunu belirledim. Bu bilgilerle ne yapacağımı tam olarak anlamıyorum. Çıktılarımın bir haritasını oluştururken bu eşiği mi kullanmalıyım? Kolayca sürekli olasılıklarla eşlenmiş bir çıktı oluşturabilirim, sonra değerleri şimdiki 0,7'den büyük olanları ve <0,7 olanları yeniden sınıflandırabilirim.
Veya cut-off parametresini kullanarak bu bilgileri alıp randomForests modelimi yeniden çalıştırmak istiyor muyum? Cut-off parametresi tam olarak ne yapıyor? Ortaya çıkan oyu değiştiriyor mu? (şu anda "çoğunluk" olduğunu söylüyor). Bu kesme parametresini nasıl kullanırım? Belgeleri anlamıyorum! Teşekkürler!