Rasgele bir ormanda, daha büyük% IncMSE daha iyi veya daha kötü mü?

R'de (regresyon) rastgele bir orman modeli oluşturduktan sonra, çağrı rf$importancebana her bir tahmin değişkeni için iki ölçü sağlar %IncMSEve IncNodePurity. %IncMSEDaha küçük değerli yordayıcı değişkenlerin daha büyük %IncMSEdeğerli yordayıcı değişkenlerden daha önemli yorumlanması ?

Nasıl olur IncNodePurity?

r feature-selection random-forest

— derNincompoop
kaynak

IncMSE en sağlam ve bilgilendirici önlemdir. Değişken j'ye izin verildiği (değerler rastgele karıştırılmış) sonucu tahminlerin (çanta dışı CV ile tahmin edilen) mse'deki artıştır.

regresyon ormanı büyümek. OOB-mse hesaplayın, bu mse0 olarak adlandırın.
1 ila j var için: j sütununun geçerli değerleri, daha sonra OOB-mse (j) değerini tahmin edin ve hesaplayın
J'th% IncMSE değeri (mse (j) -mse0) / mse0 * 100%

ne kadar yüksek olursa, o kadar önemli

IncNodePurity, en iyi bölünmelerle seçilen kayıp fonksiyonu ile ilgilidir. Kayıp fonksiyonu regresyon için mse ve sınıflandırma için gini-safsızlıktır. Daha faydalı değişkenler, düğüm saflıklarında daha yüksek artışlar elde eder, yani yüksek bir düğüm 'varyansı' ve küçük bir düğüm 'varyansı' olan bir bölünme bulmaktır. IncNodePurity önyargılıdır ve yalnızca% IncMSE değerini hesaplamak için ek hesaplama süresi kabul edilemez olduğunda kullanılmalıdır. % IncMSE değerinin hesaplanması yalnızca ~% 5-25 fazla zaman aldığından, bu neredeyse hiç olmazdı.

Benzer bir soru ve cevap

— Soren Havelund Welling
kaynak