Rastgele ormanlarda değişken önem ölçütleri


40

Regresyon için rastgele ormanlarla oynuyordum ve iki önemli önlemin ne anlama geldiğini ve bunların nasıl yorumlanması gerektiğini tam olarak çözmekte zorlanıyorum.

importance()Fonksiyon her bir değişken için iki değer verir: %IncMSEve IncNodePurity. Bu 2 değer için basit yorumlar var mı?

İçin IncNodePurityözellikle bu sadece tutar o değişkenin çıkarılmasını takiben RSS artıştır?


1
Baktın ?importancemı Her iki önlemin ne anlama
geldiğiyle

2
@Nick Sabbe, var ve başımı etraflarına sarmaya çalışıyorum. Onlar için herhangi bir sezgisel yorum olup olmadığını merak ediyordum.
dcl,

Yanıtlar:


42

Birincisi, aşağıdaki şekilde “yorumlanabilir”: bir tahmininiz, mevcut modelinizde önemliyse, o tahminde rastgele ancak 'gerçekçi' olarak (bu tahminin değerlerinin veri setiniz üzerinde olmasına izin vermek), negatif bir etkiye sahip olması gerekir. tahmin üzerine, yani: bir değişkeni hariç aynı olan verileri tahmin etmek için aynı modeli kullanmak, daha kötü tahminler vermelidir.

Bu nedenle, orijinal veri kümesiyle ve ardından 'izinli' veri kümesiyle öngörülü bir önlem (MSE) alırsınız ve bunları bir şekilde karşılaştırırsınız. Bir yol, özellikle orijinal MSE'nin daima daha küçük olmasını beklediğimizden, fark alınabilir. Son olarak, değerleri değişkenlerle karşılaştırılabilir kılmak için bunlar ölçeklendirilir.

İkincisi için: Her bölmede, bu bölmenin düğüm kirliliğini ne kadar azalttığını hesaplayabilirsiniz (regresyon ağaçları için, aslında, bölmeden önce ve sonra RSS arasındaki farkı). Bu, bu değişken için tüm ağaçların, tüm ağaçların üzerinde toplanır.

Not: İyi bir okuma, Hastie, Tibshirani ve Friedman'ın İstatistiksel Öğrenme Öğeleridir ...


3
Şerefe, aslında şu kitabı
açtım

RSS ne anlama geliyor?
DavideChicco.it


10

R'deki randomForest paketinde uygulandığı şekliyle Rastgele Orman Önemi Metrikleri, korelasyonlu tahmincilerin düşük öneme sahip değerleri alması bakımından ilginçtir.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

CRAN'da, deneysel p değerlerini ve yanlış keşif oranlarını tahmin etme yaklaşımlarını uygulayan, rastgele ormanların değiştirilmiş bir uygulamasına sahibim.

http://cran.r-project.org/web/packages/pRF/index.html


1
Eğer caret paketi ile randomForest kullanıyorsanız, bu değişken önemdeki farklı çıktıları açıklar mı caret::train(method="rf", importance = TRUE, ...)?
Çevik Fasulye
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.