Seçilen özellik sayısı azaldığında, rastgele orman OOB hata tahmini neden iyileşiyor?


14

1000 özellikli bilinen iki gruba ayrılan bir mikrodizi veri kümesine sınıflandırıcı olarak rastgele bir orman algoritması uyguluyorum. İlk çalıştırmadan sonra özelliklerin önemine bakıyorum ve 5, 10 ve 20 en önemli özellik ile ağaç algoritmasını tekrar çalıştırıyorum. Tüm özellikler için, ilk 10 ve 20'de OOB hata oranı tahmini% 1.19, burada ilk 5 özellik için% 0'dır. Bu bana karşı sezgisel görünüyor, bu yüzden bir şey eksik olup olmadığımı mı yoksa yanlış metriği mi kullandığımı açıklayıp açıklayamayacağınızı merak ediyordum.

R'de, ntree = 1000, nodesize = 1 ve mtry = sqrt (n) ile randomForest paketini kullanıyorum


2
Açık olmak gerekirse: RF'leri yinelemeli bir şekilde mi kullanıyorsunuz, yani tüm girdi alanından en üst sıradaki özellikleri (Gini dizinine veya MSE'deki düşüşe göre) seçerek mi? RF'lerin artan ağaç sayısı ile mutlaka iyileşmeyebileceğini biliyorum, ancak tasvir ettiğiniz şey mantıklı görünüyor (en iyi özellikler OOB örneklerini% 100 doğrulukla tahmin etmeye izin veriyor), ancak bu şekilde ilerlerken açıkça aşırı sığdırma riski var .
chl

Evet bunu yapıyorum
danielsbrewer

2
@chl, neden sadece 5 özellik kullanarak aşırı uyum riski olduğunu açıklayabilir misiniz?
tashuhka

Yanıtlar:


15

Bu özellik seçimi fazlalığı ve bu oldukça biliniyor - bkz. Ambroise ve McLachlan 2002 . Sorun, RF'nin çok akıllı ve nesne sayısının çok az olduğu gerçeğine dayanmaktadır. İkinci durumda, kararla iyi korelasyona sahip olabilen rastgele bir özellik oluşturmak genellikle oldukça kolaydır. Niteliklerin sayısı büyük olduğunda, tamamen alakasız olanlardan bazılarının çok iyi bir tahminci olacağından emin olabilirsiniz, özellikle de% 100'de kararı yeniden oluşturabilecek bir küme oluşturmak için yeterli olacaktır. RF dikkate alınır. Ve böylece, mümkün olan en iyi öznitelik alt kümesini bulması istendiğinde FS prosedürü bu kümeyi bulur.
A & McL'de bir çözüm (CV) verilir, ayrıca konuya yaklaşımımızı test edebilirsiniz,Temelde seti tasarımla rastgele yapılmış "gölge nitelikler" ile genişleten ve gerçekte rastgele olanların hangilerinin gerçekten rasgele olduğunu ve çıkarılabileceğini değerlendirmek için RF ile önemini karşılaştıran Boruta algoritması ; bu önemli olmak için birçok kez tekrarlanır. Boruta biraz farklı bir göreve yöneliktir, ancak testlerimin gösterdiği gibi, sonuçta ortaya çıkan sette FS overfit problemi yoktur.


2

Bu model için sezgisel bir açıklama ekleyeceğimi düşündüm.

Rasgele ormanı içeren her karar ağacında, veriler tekil boyutlar boyunca yinelemeli olarak bölünür. En önemlisi, bu prosedür aşağıdakileri içerir:

1) tüm açıklayıcı değişkenlerin sadece küçük, rastgele seçilmiş bir alt kümesini dikkate alarak ve

2) verileri rasgele bölmek için bu rastgele seçilen değişken alt kümesindeki en güçlü ilişkilendirilmiş açıklayıcı değişkenin seçilmesi .

Bu nedenle, açıklayıcı değişken sayısı arttıkça herhangi bir düğümde en önemli n değişkeninin seçilme olasılığı azalır. Bu nedenle, çok az veya hiç açıklayıcı güce katkıda bulunan çok sayıda değişken eklenirse, otomatik olarak ormanın hata hızında bir artışa yol açar. Tersine, dahil edilmek üzere sadece en önemli değişkenlerin seçilmesi büyük olasılıkla hata oranının düşmesine neden olacaktır.

Rastgele ormanlar buna oldukça dayanıklıdır ve performansı önemli ölçüde azaltmak için genellikle bu 'gürültü' parametrelerinin çok fazla eklenmesi gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.