Min_child_weight parametresinin xgboost içindeki tanımı şöyledir:
Bir çocukta ihtiyaç duyulan minimum örnek ağırlığı (kendir) toplamı. Ağaç bölüm adımı, örneğin ağırlık toplamının min_child_weight değerinden daha az olduğu bir yaprak düğümüyle sonuçlanırsa, oluşturma işlemi daha fazla bölümlendirme yapacaktır. Doğrusal regresyon modunda, bu sadece her düğümde olması gereken minimum örnek sayısına karşılık gelir. Ne kadar büyük olursa, algoritma o kadar tutucu olur.
Özgün makale (bkz. Formül 8 ve denklem 9'dan hemen sonraki formül) , xgboost hakkında bir kaç şey okudum , bu soru ve google aramasının ilk birkaç sayfasında görünen xgboost ile ilgili birçok şey. ;)
Temelde hala neden kendirin toplamına bir kısıtlama getirdiğimizden memnun değil miyim? Orijinal makaleden şu , her ağırlığı olarak olan ağırlıklı kuantil taslak bölümü (ve denklem 3 ağırlıklı kare kaybı olarak yapılan yeniden düzenleme) ile ilgili olduğu .
Başka bir soru, neden sadece doğrusal regresyon modundaki örneklerin sayısı ile ilgilidir? Bunun kareler denkleminin toplamının ikinci türevi ile ilgili olduğunu tahmin ediyorum?