Eski iş parçacığı, ancak ortaklığın rastlantısal orman modelleri ile ilgili bir sorun olmadığı konusunda bir battaniye ifadesine katılmıyorum. Veri kümesi, iki (veya daha fazla) ilişkili özelliğe sahip olduğunda, model açısından, bu ilişkili özelliklerin herhangi biri, diğerlerinden daha somut bir tercihi olmadan, öngörücü olarak kullanılabilir.
Ancak bunlardan biri kullanıldığında, diğerlerinin önemi önemli ölçüde azalır, çünkü etkili bir şekilde çıkardıkları kirlilik ilk özellik tarafından kaldırılır.
Sonuç olarak, rapor edilen önemi daha düşük olacaktır. Bu, fazla uyumu azaltmak için özellik seçimini kullanmak istediğimizde bir sorun değildir, çünkü diğer özellikler tarafından çoğunlukla çoğaltılmış olan özellikleri kaldırmak mantıklıdır, ancak verileri yorumlarken , değişkenlerden birinin yanlış olduğu sonucuna varılabilir. Aynı gruptaki diğerleri önemsizken güçlü bir tahminci iken, cevap değişkeni ile olan ilişkileri açısından oldukça yakındırlar.
Bu fenomenin etkisi, her düğüm oluşumunda rastgele özelliklerin seçilmesi sayesinde bir miktar azalır, ancak genel olarak etki tamamen ortadan kaldırılmaz.
Yukarıdakiler çoğunlukla buradan kaynaklanmaktadır: İyi özellikler seçmek
multicollinearity
rastgele orman modeli üzerinde NO etkisinin olduğunu gördüm . Örneğin, burada en çok oy alan cevap, “rastgele orman modelinin hiçbir parçasının yüksek düzeyde kolinear olmayan değişkenler tarafından zarar görmeyeceğini” söylüyor. Bunun geçerliliği var mı?