Benim mantığım, bu gürültü değişkenleri maksimum kazanç bölünmesi VERMEDİĞİNDEN, asla seçilmeyecekleri için ağaç büyümesini etkilemezler.
Bu sadece egzersiz setinizdeki örnek sayısının tüm varyasyonları iyi kapsadığı çok büyük, neredeyse sonsuz veri setleri için mükemmel bir şekilde doğrudur. Pratikte, yeterli boyutlarla çok sayıda örnekleme gürültüsü elde edersiniz, çünkü olası örneklerin kapsamı verilerinizin daha fazla boyutuna sahip olduğundan daha zayıftır.
Hedef değişkenle tesadüfen ilişkilendirilen zayıf değişkenlerdeki gürültü, algoritmaların etkinliğini sınırlayabilir ve bu, değerlendirilen verilerin zaten küçük bir alt kümeye gruplandığı karar ağacında daha derin bölünmelerde daha kolay olabilir.
Ne kadar çok değişken eklerseniz, belirli bir kombinasyon için bölünmüş seçim algoritmasına iyi görünen zayıf korelasyonlu değişkenlere sahip olmanız daha olasıdır, bu da daha sonra amaçlanan sinyal yerine bu gürültüyü öğrenen ağaçlar oluşturur ve sonuçta kötü genelleme.
Pratikte, XGBoost'u küçük ölçekte gürültüye karşı oldukça sağlam buldum. Bununla birlikte, benzer nedenlerden dolayı, bazen daha iyi korelasyonlu verilere tercih olarak, düşük kaliteli mühendislik değişkenleri seçeceğini de buldum. Dolayısıyla, "daha fazla değişken XGBoost için daha iyi" olan ve olası düşük kaliteli özellikleri önemsemeniz gereken bir algoritma değildir.