Random Forest: bir değişkenin önemli olduğunu bilirsem


12

Anladığım kadarıyla, rasgele orman her karar ağacını oluşturmak için rastgele mtry değişkenlerini seçiyor . Yani mtry = ncol / 3 ise, her değişken ağaçların ortalama 1 / 3'ünde kullanılır. Ve ağaçların 2 / 3'ü onları kullanmayacak.

Ama tek bir değişkenin muhtemelen çok önemli olduğunu bilersem, bu değişkenin her ağaçta seçilme olasılığını manuel olarak arttırmak iyi olur mu? R'deki randomForest paketi ile uygulanabilir mi?

Yanıtlar:


6

Mtry unutmayınher bölümdeki adaylar arasından rastgele örneklenen değişkenlerin sayısıdır. Ve bu adaylardan bölme yapmak için en iyisi seçilir. Böylece bahsettiğiniz oran tam olarak karşılanmamıştır. Daha önemli değişkenler daha sık görülür ve daha az önemli - daha az sıklıkta. Değişken gerçekten çok önemliyse, o zaman bir ağaçta toplanma olasılığı büyüktür ve manuel düzeltmeye ihtiyacınız yoktur. Ancak bazen (nadiren) regresyonda bazı değişkenlerin (olası önemine bakılmaksızın) varlığını zorlamaya ihtiyaç vardır. Bildiğim kadarıyla R paketi rastgele orman böyle bir olasılığı desteklemiyor. Ancak bu değişkenin başkaları ile karşılıklı ilişkisi yoksa, bu değişkenle tek terim olarak normal regresyon yapabilir ve daha sonra bu normal regresyonun kalıntıları üzerinde rastgele orman regresyonu yapabilirsiniz. Önceden belirlenmiş değişkenleri seçme olasılığını hala düzeltmek istiyorsanız, kaynak kodun bir sonraki derleme ile değiştirilmesi sizin seçeneğinizdir.


2
Hedef işleviniz için iyi bir yaklaşım elde etmek için n ağaçlara ihtiyacınız varsa, ancak değişken önem arıyorsanız, ormandaki 5 * n veya 10 * n ağaçlar gibi bir şey ayarlayabilirsiniz. "Uyum hatası" na değil, değişken önemdeki değişime daha fazla yakınlaşacaklar.
EngrStudent

5

Haziran 2015'ten bu yana, R-CRAN'da 'ranger' adı verilen yeni bir umut verici RF algoritması bu özelliğe sahiptir. Bu, büküverdi olan split.select.weights : "Sayısal vektör 0 ile 1 arasında ağırlık ile, bölme için değişkenler seçmek için olasılığını temsil eder."

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.