Ben örneklerde daha tahmin ediciler ile bir "geniş" veri kümesinde sürekli bir sonucu açıklamaya çalışmak için rastgele bir orman modeli geliştirmek için R randomForest paketi kullanıyorum.
Özellikle, prosedürün önemli olduğunu düşündüğüm ~ 75 prediktör değişkenleri arasından seçim yapmasına izin veren bir RF modeli takıyorum.
Ben kullanarak bu modelin ayrılmış bir test seti için gerçek sonucunu tahmin eder ne kadar iyi test ediyorum yaklaşım daha önce burada yayınlanan , yani
... veya R cinsinden:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Ama şimdi ekleyebileceğim ~ 25 ek tahmin değişkenim var. ~ 100 öngörücü seti kullanıldığında, R² daha yüksektir. ~ 100 belirteçlerinin setini kullanırken diğer bir deyişle, istatistiksel Bunu test etmek istiyorum, model testi yapar anlamlı ~ 75 parametreler kullanılarak model uyum daha veriyi test daha iyi. Yani, R² modelini tam veri kümesine sığdırmayı test eden R², RF modelini indirgenmiş veri kümesinde test etmekten önemli ölçüde daha yüksektir.
Bunu test etmek benim için önemlidir, çünkü bu pilot verilerdir ve fazladan 25 tahmin ediciyi elde etmek pahalıdır ve daha geniş bir takip çalışmasında bu tahmin edicileri ölçmek için para ödemem gerekip gerekmediğini bilmem gerekir.
Bir tür yeniden örnekleme / permütasyon yaklaşımı düşünmeye çalışıyorum ama akla hiçbir şey gelmiyor.