Rastgele Ormandan önce özellik seçimini kullanmak mantıklı mı?


Yanıtlar:


6

Evet öyle ve oldukça yaygın. Özelliklerinizin ~% 50'sinden fazlasını bekliyorsanız, yedekli değil, tamamen işe yaramaz. Örneğin randomForest paketi, randomForest'i önceden numaralandıracak ve en az önemli değişkenleri atlayacak olan rfcv () sarma fonksiyonuna sahiptir. rfcv işlevi bu bölüme bakın . Aşırı iyimser sonuçları önlemek için özellik seçimini + modellemeyi dış çapraz doğrulama döngüsüne gömmeyi unutmayın.

[aşağıda düzenle]

Ben "tamamen yararsız" ılımlı olabilir. Tek bir rastgele orman çoğunlukla, örneğin (simüle edilmiş gezide) rastgele özellikler olsa bile, kement düzenlenmesi ile regresyon özellikleri tamamen görmezden gelmez. Özelliklere göre karar ağacı bölmeleri binlerce veya milyonlarca düğümden herhangi birinde yerel ölçütlere göre seçilir ve daha sonra geri alınamaz. Kesme özelliklerini tek bir üstün seçime kadar savunmuyorum, ancak bu değişken seçimi kullanarak tahmin performansında (tekrarlanan bir dış çapraz doğrulama ile tahmin edilen) önemli bir artış elde etmek mümkün olan bazı veri setleri içindir . Tipik bir bulgu, özelliklerin% 100'ünün veya yalnızca% birkaçının daha az iyi çalıştığı ve benzer tahmin performansıyla geniş bir orta aralık olabileceği olabilir.

Belki makul bir başparmak kuralı: bir o, sonra bir rastgele bir orman ve durağı olan özellikler-eğitim ön kement benzeri düzenlilestirme verilen bir sorun için bir mahya benzeri regularization daha iyi hizmet verecek deneyebilirsiniz bekliyoruz zaman out-of-the torba çapraz doğrulanmış değişken önemi ve en az önemli özelliklerinden bazılarını bırakmayı deneyin . Değişken önem , belirli bir özelliğe eğitimden sonra öngörmeden önce izin verildiğinde (değerler karıştırılır) çapraz doğrulanmış model tahmininin ne kadar azaldığını belirler. Belirli bir özelliğin dahil edilmesi gerekip gerekmediği asla kesinleşmeyecektir, ancak en üstteki% 5'lik özelliklerle tahmin edilmesi, muhtemelen% 5'lik alttan daha kolay olacaktır.

Pratik bir bakış açısından, hesaplama başına çalışma süresi azaltılabilir ve özellik başına sabit bir edinme maliyeti varsa bazı kaynaklar tasarruf edilebilir.


5
Verilerin bir özelliğin işe yaramaz olduğunu söyleme yeteneği ciddi şekilde sınırlıdır ve umarım başvurduğunuz seçenek rastgele orman algoritmasına entegre edilmiştir. Aday özellikleri rastgele orman algoritmasına göndermeden önce özelliklerin ön silinmesini yapmak uygun olmaz.
Frank Harrell

@FrankHarrell, cevabımı detaylandırmaya çalıştım
Soren Havelund Welling

2
Farklı amaçlar için farklı puanlama kuralları seçtiğinize katılmıyorum. Yanlış doğruluk puanlama kuralı, yanlış özelliklerin seçilmesine ve yanlış ağırlıkların verilmesine yol açar. Daha belirgin olanı, bazı puanlama kurallarındaki keyfiliktir. Optimum tahmin modelini seçmek ve daha sonra bu modeli kullanarak optimum kararlar almak için sağlam karar teorisini kullanmak çok daha iyidir. Bu, sürekli tahminlere bir faydalı fonksiyon uygulanarak yapılır.
Frank Harrell

1
@FrankHarrell - bu soruya ayrıntılı bir cevap verebilir misiniz? görünüşe göre özellik seçimi yapmaya karşı bazı güçlü argümanlar var ...
ihadanny 21:30 '

1
Bunu öğrenmenin en iyi yolu, özellik seçimine karşı olmayan bir yordamın sıkı önyükleme iç doğrulamasını yapmaktır. Oldukça sık öngörücü ayrımcılık (uygun doğruluk puanlama kuralı kullanılarak veya hattac-index (ROC alanı)), özellik seçimi denenmediğinde daha iyidir. Özellik seçimi neredeyse her zaman keyfidir.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.