Xgboost'un yaklaşık bölünmüş puan teklifini anlamak için yardıma ihtiyacınız var

12

arka fon:

içinde xgboost yineleme denemeden bir ağaç sığacak şekilde baştan objektif aşağıdaki minimize örnekler: $t$ $f_t$ $n$

Σ_{ben = 1}^{n} [g_{ben} f_{t} (x_{ben}) + \frac{1}{2} h_{ben} f_{t}^{2} (x_{ben})]

$\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)]$

burada birinci derece ve önceki iyi tahmini üzerinde ikinci derece türevleridir (yineleme gelen ): $g_i, h_i$ $\hat{y}$ $t-1$

$g_i=d_{\hat{y}}l(y_i, \hat{y})$
$h_i=d^2_{\hat{y}}l(y_i, \hat{y})$

ve bizim kayıp fonksiyonumuzdur. $l$

Soru (sonunda):

Oluştururken ve belirli bir özelliği dikkate belirli bölünmüş, bunlar sadece bazı ayrık adayları değerlendirmek için aşağıdaki sezgisel bir yaklaşım kullanın: bunların yan Onlar sıralamak tüm örnekler , sıralı liste üzerinden geçmek ve ikinci türev toplamı . Bölünmüş bir adayı yalnızca toplam ϵ'dan fazla değiştiğinde . Neden??? $f_t$ $k$ $x_k$ $h_i$ $\epsilon$

Verdikleri açıklama benden kaçıyor:

Önceki denklemi şu şekilde yeniden yazabileceğimizi iddia ediyorlar:

Σ_{ben = 1}^{n} \frac{1}{2} h_{ben} [f_{t} (x_{ben}) - g_{ben} / h_{ben}]^{2} + c Ö n s t bir n t

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant$

ve cebiri takip edemiyorum - neden eşit olduğunu gösterebilir misiniz?

Ve sonra "bu tam olarak ve ağırlıkları etiketli kare kayıptır " - katıldığım bir ifade, ancak kullandıkları bölünmüş aday algoritması ile nasıl ilişkili olduğunu anlamıyorum. .. $gi/hi$ $h_i$

Bu forum için çok uzunsa teşekkürler ve üzgünüm.

xgboost gbm

— ihadanny
kaynak

8

Ayrıntılara girmeyeceğim, ancak aşağıdakiler fikri anlamanıza yardımcı olacaktır.

Nerede bölüneceğini belirlemek için Quantiles (Wikipedia) kullanıyorlar. 100 olası bölme noktanız varsa, (sıralı), quantil bölme noktasını ve zaten iyi bir yaklaşıma sahip olabilirsiniz. Bu nedir parametresi yapıyor. Onlar bölünmüş olan bir bölme noktasını dikkate geçen bölme noktasını daha altında daha fazla puan. Eğer $\{x_1, \cdots, x_{100}\}$ $10$ $\{x_{10}, x_{20}, \cdots, x_{90}\}$ $\epsilon$ $\sim \epsilon N$ $\epsilon = 0.01$ , Sen ile sona erecek daha büyük olduğu, bölme noktaları diğer puanlar. "Toplam değerinden fazla değiştiğinde ancak geçerli noktanın altındaki nokta sayısı sonuncusundan daha fazla olduğunda yeni bir bölünme . $\sim 100$ $\{1\%, 2\%, ..., 99\%\}$ $\epsilon$ $\epsilon$

Şimdi, zaten iyi sınıflandırılmış çok fazla sürekli noktanız varsa, bunlar arasında bölünmek işe yaramayabilir. Veri kümenizin çok yanlış olan, öğrenmesi zor kısımlarını bölmek istiyorsunuz. Bunu yapmak için ağırlıklı nicelikler kullanırlar. Ağırlıklar burada rol oynamaktadır. İlk kantil , noktaların daha büyük olan ilk nokta değil, ağırlıkların daha büyük olan ilk nokta olacaktır . $10$ $10\%$ $10\%$

— Winks
kaynak

Sadece sana oy vermek için giriş yaptım. Kolay anlaşılır açıklama için teşekkürler.

— Pakpoom Tiwakornkit

3

@Winks cevabına sadece cebirsel kısmı eklemek:

İkinci denklemin işareti aşağıdaki gibi tersine çevrilmelidir:

Σ_{ben = 1}^{n} \frac{1}{2} h_{ben} [f_{t} (x_{ben}) - (- g_{ben} / h_{ben})]^{2} + c Ö n s t bir n t = Σ_{ben = 1}^{n} \frac{1}{2} h_{ben} [f_{t}^{2} (x_{ben}) + 2 \frac{f_{t} (x_{ben}) g_{ben}}{h_{ben}} + (g_{ben} / h_{ben})^{2}] = Σ_{ben = 1}^{n} [g_{ben} f_{t} (x_{ben}) + \frac{1}{2} h_{ben} f_{t}^{2} (x_{ben}) + \frac{g {ben}^{2}}{2 h_{ben}}]

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - (-g_i/h_i)]^2 + constant = \sum_{i=1}^n\frac{1}{2}h_i[f_t^2(x_i) + 2\frac{f_t(x_i)g_i}{h_i} + (g_i/h_i)^2] = \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) + \frac{gi^2}{2h_i}]$

$g_i$ $h_i$ $f_t$

$-gi/hi$ $h_i$

Bana bunu açıkladıkları için ekibimden Yaron ve Avi'ye kredi gidiyor.

— ihadanny
kaynak

0

Ve sonra "bu tam olarak gi / higi / hi ve ağırlıklar hihi etiketleri ile tam kare kare kaybı" - katıldığım bir ifade, ama kullandıkları bölünmüş aday algoritması ile nasıl bir ilişki olduğunu anlamıyorum .. .

$w$ $t-t_h$ $w* = -gi/hi$ $(ft - -(gi/hi))^2$
$w*$ $-avg(gi)/const$ $-sigma(gi)/sigma(hi)$ $w*$ $hi$ $gi$ $w*$ $hi$

$hi$

— xy.Z
kaynak