Her şey başlıkta, rastgele ormanı kullanmadan önce özellik seçimini kullanmak mantıklı mı?
Her şey başlıkta, rastgele ormanı kullanmadan önce özellik seçimini kullanmak mantıklı mı?
Yanıtlar:
Evet öyle ve oldukça yaygın. Özelliklerinizin ~% 50'sinden fazlasını bekliyorsanız, yedekli değil, tamamen işe yaramaz. Örneğin randomForest paketi, randomForest'i önceden numaralandıracak ve en az önemli değişkenleri atlayacak olan rfcv () sarma fonksiyonuna sahiptir. rfcv işlevi bu bölüme bakın . Aşırı iyimser sonuçları önlemek için özellik seçimini + modellemeyi dış çapraz doğrulama döngüsüne gömmeyi unutmayın.
[aşağıda düzenle]
Ben "tamamen yararsız" ılımlı olabilir. Tek bir rastgele orman çoğunlukla, örneğin (simüle edilmiş gezide) rastgele özellikler olsa bile, kement düzenlenmesi ile regresyon özellikleri tamamen görmezden gelmez. Özelliklere göre karar ağacı bölmeleri binlerce veya milyonlarca düğümden herhangi birinde yerel ölçütlere göre seçilir ve daha sonra geri alınamaz. Kesme özelliklerini tek bir üstün seçime kadar savunmuyorum, ancak bu değişken seçimi kullanarak tahmin performansında (tekrarlanan bir dış çapraz doğrulama ile tahmin edilen) önemli bir artış elde etmek mümkün olan bazı veri setleri içindir . Tipik bir bulgu, özelliklerin% 100'ünün veya yalnızca% birkaçının daha az iyi çalıştığı ve benzer tahmin performansıyla geniş bir orta aralık olabileceği olabilir.
Belki makul bir başparmak kuralı: bir o, sonra bir rastgele bir orman ve durağı olan özellikler-eğitim ön kement benzeri düzenlilestirme verilen bir sorun için bir mahya benzeri regularization daha iyi hizmet verecek deneyebilirsiniz bekliyoruz zaman iç out-of-the torba çapraz doğrulanmış değişken önemi ve en az önemli özelliklerinden bazılarını bırakmayı deneyin . Değişken önem , belirli bir özelliğe eğitimden sonra öngörmeden önce izin verildiğinde (değerler karıştırılır) çapraz doğrulanmış model tahmininin ne kadar azaldığını belirler. Belirli bir özelliğin dahil edilmesi gerekip gerekmediği asla kesinleşmeyecektir, ancak en üstteki% 5'lik özelliklerle tahmin edilmesi, muhtemelen% 5'lik alttan daha kolay olacaktır.
Pratik bir bakış açısından, hesaplama başına çalışma süresi azaltılabilir ve özellik başına sabit bir edinme maliyeti varsa bazı kaynaklar tasarruf edilebilir.