1000 özellikli bilinen iki gruba ayrılan bir mikrodizi veri kümesine sınıflandırıcı olarak rastgele bir orman algoritması uyguluyorum. İlk çalıştırmadan sonra özelliklerin önemine bakıyorum ve 5, 10 ve 20 en önemli özellik ile ağaç algoritmasını tekrar çalıştırıyorum. Tüm özellikler için, ilk 10 ve 20'de OOB hata oranı tahmini% 1.19, burada ilk 5 özellik için% 0'dır. Bu bana karşı sezgisel görünüyor, bu yüzden bir şey eksik olup olmadığımı mı yoksa yanlış metriği mi kullandığımı açıklayıp açıklayamayacağınızı merak ediyordum.
R'de, ntree = 1000, nodesize = 1 ve mtry = sqrt (n) ile randomForest paketini kullanıyorum