Mevcut cevapların eksik olduğunu düşündüğüm için iki sentimi buna eklemek istiyorum.
PCA gerçekleştirmek, özellikle aşağıdaki resimde gösterildiği gibi belirli bir nedenden ötürü rastgele bir orman (veya LightGBM veya başka herhangi bir karar ağacı tabanlı yöntem) eğitilmeden önce yararlı olabilir.
Temel olarak, eğitim setinizi en yüksek varyanslı yönler boyunca hizalayarak mükemmel karar sınırını bulma işlemini çok daha kolay hale getirebilir.
Karar ağaçları verilerin dönüşüne duyarlıdır, çünkü oluşturdukları karar sınırı her zaman dikey / yataydır (yani eksenlerden birine diktir). Bu nedenle, verileriniz soldaki resme benziyorsa, bu iki kümeyi ayırmak çok daha büyük bir ağaç alacaktır (bu durumda 8 katmanlı bir ağaçtır). Ancak verilerinizi ana bileşenleriyle (doğru resimde olduğu gibi) hizalarsanız, tek bir katmanla mükemmel bir ayırma elde edebilirsiniz!
Tabii ki, tüm veri kümeleri bu şekilde dağıtılmaz, bu nedenle PCA her zaman yardımcı olmayabilir, ancak yine de denemek ve işe yarayıp yaramadığını görmek yararlıdır. Ve sadece bir hatırlatma, PCA yapmadan önce veri kümenizi birim varyansına normalleştirmeyi unutmayın!
Not: Boyutsal küçültmeye gelince, diğer algoritmalarda olduğu gibi rastgele ormanlar için genellikle büyük bir sorun olmadığı konusunda geri kalanlara katılıyorum. Ama yine de, eğitiminizi biraz hızlandırmaya yardımcı olabilir. Karar ağacı eğitim O (n, m, log (m)), burada n, eğitim örnekleri, m sayısı - boyut sayısı. Rastgele ormanlar, eğitilecek her ağaç için rastgele bir boyut alt kümesi seçse de, seçtiğiniz toplam boyut sayısının daha düşük kısmı, iyi performans elde etmek için daha fazla ağaç yetiştirmeniz gerekir.
mtry
her ağacı oluşturmak için bunların rastgele bir alt kümesini ( parametre olarak adlandırılır ) alır. RF algoritmasının üzerine inşa edilmiş bir özyinelemeli özellik eleme tekniği de vardır ( varSelRF R paketine ve içindeki referanslara bakın). Bununla birlikte, çapraz doğrulama sürecinin bir parçası olmasına rağmen, bir ilk veri azaltma şeması eklemek kesinlikle mümkündür. Yani soru şu: RF'ye özelliklerinizin doğrusal bir kombinasyonunu girmek istiyor musunuz?