Xgboost algoritmasında min_child_weight açıklaması


23

Min_child_weight parametresinin xgboost içindeki tanımı şöyledir:

Bir çocukta ihtiyaç duyulan minimum örnek ağırlığı (kendir) toplamı. Ağaç bölüm adımı, örneğin ağırlık toplamının min_child_weight değerinden daha az olduğu bir yaprak düğümüyle sonuçlanırsa, oluşturma işlemi daha fazla bölümlendirme yapacaktır. Doğrusal regresyon modunda, bu sadece her düğümde olması gereken minimum örnek sayısına karşılık gelir. Ne kadar büyük olursa, algoritma o kadar tutucu olur.

Özgün makale (bkz. Formül 8 ve denklem 9'dan hemen sonraki formül) , xgboost hakkında bir kaç şey okudum , bu soru ve google aramasının ilk birkaç sayfasında görünen xgboost ile ilgili birçok şey. ;)

Temelde hala neden kendirin toplamına bir kısıtlama getirdiğimizden memnun değil miyim? Orijinal makaleden şu , her ağırlığı olarak olan ağırlıklı kuantil taslak bölümü (ve denklem 3 ağırlıklı kare kaybı olarak yapılan yeniden düzenleme) ile ilgili olduğu .hi

Başka bir soru, neden sadece doğrusal regresyon modundaki örneklerin sayısı ile ilgilidir? Bunun kareler denkleminin toplamının ikinci türevi ile ilgili olduğunu tahmin ediyorum?

Yanıtlar:


42

Bir regresyon için, bir düğümdeki her bir noktanın kaybı

12(yiyi^)2

İle ilgili olarak bu ifadenin ikinci türev olan . Böylece ikinci türevi düğümdeki tüm noktaların üzerine topladığınızda, düğümdeki nokta sayısını elde edersiniz. Burada, min_child_weight "bir düğümdeki örnek büyüklüğünüz verilen bir eşiğin altına düştüğünde bölünmeyi denemeyi durdur" gibi bir anlama gelir.yi^1

İkili bir lojistik regresyon için, bir düğümdeki her nokta için kendir gibi terimler içerecektir

σ(yi^)(1σ(yi^))

burada sigmoid işlevidir. Diyelim ki saf bir düğümdesiniz (örneğin, düğümdeki tüm eğitim örnekleri 1'dir). Sonra tüm 'ler büyük olasılıkla büyük pozitif sayılar olacak, bu yüzden ' lerin tümü 1'e yakın olacak, bu nedenle tüm hessian terimleri 0'a yakın olacak. mantık, düğümdeki tüm eğitim örneklerinin 0 olması durumunda geçerlidir. Burada, min_child_weight "bir düğümde belirli bir saflık derecesine ulaştığınızda ve modeliniz buna uyduğunda bölünmeyi denemeyi durdur" gibi bir anlama gelir.σyi^σ(yi^)

Hessian düzenlileşmek ve ağaç derinliğini sınırlamak için kullanılabilecek aklı başında bir şey. Regresyon için, sadece 1 gözlemle düğümlere ayrılırsanız, nasıl üstesinden gelebileceğinizi görmek kolaydır. Benzer şekilde, sınıflandırma için, her bir düğüm saf oluncaya kadar bölme konusunda ısrar ederseniz, nasıl üst üste geleceğinizi görmek kolaydır.


Cevabınız için teşekkür ederim, itibarımızın düşük olmasından dolayı sizi affedemem.
maw501

1
Merhaba @ maw501: Sorun yok, yapabilirim. İyi cevap Hahdawg!
Catbu,

Peki, çok dengesiz bir veri durumunda, min_child_weight için önerilen aralık nedir?
Mehdi Baghbanzadeh

Dengesiz veri setindeyken, min_child_weight de ağırlık içermeli midir? Teşekkür ederim! @hahdawg
HanaKaze
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.