Çoğunlukla yüksek derecede korelasyonlu ve çok gürültülü (örneğin teknik göstergeler) çoğunlukla finansal değişkenlere (120 özellik, 4k örnek) sahip bir veri setim var, bu yüzden model eğitimi (ikili sınıflandırma) ile daha sonra kullanmak üzere maksimum 20-30'u seçmek istiyorum - artış azalış).
Özellik sıralaması için rastgele ormanlar kullanmayı düşünüyordum. Bunları tekrar tekrar kullanmak iyi bir fikir mi? Örneğin, ilk turda istenen sayıda özelliği elde edene kadar en kötü% 20'yi, ikincisini de düşürdüğümü varsayalım. RF ile çapraz doğrulamayı kullanmalı mıyım? (Benim için CV kullanmama sezgisel çünkü RF zaten bunu yapıyor.)
Ayrıca rastgele ormanlarla gidersem bunları özellik ithalatları almak için gerçek artış / azalma için ikili veya regresör sınıflandırıcılar olarak mı kullanmalıyım?
Bu arada, özellik seçiminden sonra denemek istediğim modeller şunlardır: SVM, sinir ağları, yerel ağırlıklı regresyonlar ve rastgele orman. Esas olarak Python'da çalışıyorum.
built-in
vasfını RandomForestClassifier içinde sklearn
adlandırılan feature_importances_
....? Bağlantıda göreceksiniz.