Doğrusal Regresyon için Gradyan Artırma - Neden Çalışmıyor?


35

Gradient Boosting hakkında bilgi edinirken, metodun model oluşturmak ve birleştirmek için kullandığı "zayıf bir sınıflandırıcı" nın özellikleriyle ilgili herhangi bir kısıtlama duymadım. Ancak, doğrusal regresyon kullanan bir GB uygulamasının hayal bile edemedim ve aslında bazı testler yaptığımda, işe yaramadı. En standart yaklaşımı toplam kare artıkları gradyanı ile test ediyordum ve sonraki modelleri bir araya getiriyordum.

Açıkça görülen sorun, ilk modelden kalanların artık uygun bir regresyon çizgisi olmayacak şekilde yerleştirilmiş olmasıdır. Diğer bir gözlemim, sonraki doğrusal regresyon modellerinin toplamının, tek bir regresyon modeli olarak da temsil edilebileceği (tüm kavramaları ve karşılık gelen katsayıları ekleyerek) gösterilebilmesidir, bu yüzden bu modeli nasıl geliştirebileceğini hayal edemiyorum. Son gözlem, doğrusal regresyonun (en tipik yaklaşım) bir kayıp fonksiyonu olarak kare artıkların toplamını kullanmasıdır - GB'nin kullandığı ile aynıdır.

Ayrıca, öğrenme oranını düşürmeyi ya da her yineleme için yalnızca bir yordayıcı alt kümesini kullanmayı düşündüm, ancak sonuçta yine de tek bir model temsili için toplanabileceğini düşündüm.

Burada ne özlüyorum? Doğrusal regresyon Gradient Boosting ile kullanmak bir şekilde uygunsuz mu? Doğrusal regresyonun, kare artıkların toplamını bir kayıp fonksiyonu olarak kullanması nedeniyle midir? Zayıf tahmin ediciler üzerinde Gradient Boost uygulamasına uygulanabilecek belirli bir kısıtlama var mı?


Sezgisel olarak sınıflandırıcıları kullanmamanız gerektiğini düşünüyorum çünkü bunların toplamı aynı tür sınıflandırıcıdır. örneğin, doğrusal fonksiyonların toplamı doğrusal bir fonksiyondur.
user18764

Bunun eski olduğunu biliyorum, ancak benim anladığım kadarıyla artırma basamağı, mevcut artıklar ve temel öğrenen (sizin durumunuzda doğrusal bir gerilemedir) arasındaki öğrenme fonksiyonuyla çarpılan kayıp işlevini en aza indirir. Dolayısıyla, temel öğrenen kişi mse'yi en aza indirirken, güçlendirici tarafından kullanılan kayıp fonksiyonu aynı MAPE olabilir mi?
David Waterworth

Yanıtlar:


35

Burada ne özlüyorum?

Gerçekten bir şey kaçırdığını sanmıyorum!

Diğer bir gözlem, daha sonraki doğrusal regresyon modellerinin toplamının, tek bir regresyon modeli olarak da temsil edilebileceği (tüm etkileşimleri ve karşılık gelen katsayıları ekleyerek) gösterilebilmesidir, bu yüzden bu modeli nasıl geliştirebileceğini hayal edemiyorum. Son gözlem, doğrusal regresyonun (en tipik yaklaşım) bir kayıp fonksiyonu olarak kare artıkların toplamını kullanmasıdır - GB'nin kullandığı ile aynıdır.

Bana oraya çivilenmiş gibi geliyor ve doğrusal regresyonun sadece bu ayarda doğrusal regresyonları artırdığının bir kanıtı.

Pedantik olmak için, her iki yöntem de aşağıdaki optimizasyon problemini çözmeye çalışıyor

β^=argminβ(yXβ)t(yXβ)

Doğrusal regresyon sadece doğrusal denklemin çözümünü bularak doğrudan çözebileceğinizi gözlemler.

XtXβ=Xty

Bu otomatik olarak size tüm olasılıkların en iyi değerini verir .β

Zayıf sınıflandırıcınızın tek değişkenli veya çok değişkenli bir regresyon olup olmadığını size bir dizi katsayı vektörü verir: . Son model tahmini, gözlemlediğiniz gibi, bir toplamdır ve tam lineer regresör ile aynı işlevsel forma sahiptir.β1,β2,

Xβ1+Xβ2++Xβn=X(β1+β2++βn)

Bu adımların her biri kare hataların toplamını daha da azaltmak için seçilmiştir. Ancak , başlangıçta tam bir doğrusal regresyon gerçekleştirerek, bu işlevsel biçimdeki minimum olası kare hata toplamını bulabilirdik.

Bu durumda desteklemenin olası bir savunması, sağladığı örtük düzenlileştirme olabilir. Muhtemelen (ben bununla oynamadım), tam doğrusal regresyonun yetersizliğini durdurmak için bir gradyan yükselticisinin erken durdurma özelliğini çapraz doğrulama ile birlikte kullanabilirsiniz. Bu, regresyonunuza düzenli bir düzenleme sağlayacaktır ve büyük olasılıkla fazla uydurma konusunda yardımcı olacaktır. Bu özellikle pratik değildir, çünkü biri regresyon ve regülasyon gibi elastik ağ gibi çok verimli ve iyi anlaşılmış seçeneklere sahiptir.

Artırma, etrafında kısa bir fonksiyonel biçim olmadığında parlar. Karar ağaçlarının güçlendirilmesi, regresör / sınıflandırıcının işlevsel formunun verilere uyması için yavaşça evrilmesine izin verir, bu genellikle bir kişinin elle ve gözle hayal edemediği karmaşık şekillerle sonuçlanır. Basit bir işlevsel formu zaman olduğu istenen, bunun bulmanıza yardımcı olmak için gitmiyor boosting (ya da en azından muhtemelen bulmak için oldukça verimsiz bir yoludur).


2
Ben cevabı seviyorum, ama biraz bilgiçlikli olmak için , regresyondan en iyi doğrusal yansız tahmin edicidir. Tarafsızlıktan düşmek, özellikle yüksek çoklu doğrusallık koşullarında, daha sonunda atlattığınız bir şeyi biraz daha iyi yapmanıza izin verebilir. β
Jonathan Lisic,

Bu çok iyi ve net bir cevap. Onay / açıklama için teşekkürler Matthew!
Matek

“Etrafında kısa ve fonksiyonel bir biçim olmadığında parlamayı arttırmak.” Bu aradığım cevap. Yani, sadece benim Sorunun cevabı evet demek, onaylamak istiyorum, ama temel olarak modelin doğrusal kimse kullanımı öğrenen ?, stats.stackexchange.com/questions/231286/...
Haitao Du

5

En küçük kareler projeksiyon matrisi

X(XTX)1XT

Bunu doğrudan tahmin edilen değerlerimizi elde etmek için kullanabiliriz. , örn.y^

y^=X(XTX)1XTy

Diyelim ki bir regresyona uydunuz ve ardından artıklarınızı hesapladınız.

e=yy^=yX(XTX)1XTy

Ve sonra bu artık vektörü, bir sonraki regresyonda yeni bağımlı değişkeniniz olarak kullanırsınız. Bu ikinci regresyonun tahminlerini doğrudan hesaplamak için tekrar projeksiyon matrisini kullanın ve bu yeni tahminleri :y^2

y^2=X(XTX)1XTe=X(XTX)1XT(yX(XTX)1XTy)=X(XTX)1XTyX(XTX)1XTX(XTX)1XTy=X(XTX)1XTyX(XTX)1XTy=0

Bunun bir nedeni, inşaat ile ilk gerilemeden kalan vektörün e X uzayına dik olmasıdır, yani, y uzayından X uzayına dik bir çıkıntıdır (bunu literatürde görselleştiren güzel resimler bulacaksınız. ).y^

Bu, bir regresyon yerleştirmenin basit bir yaklaşımı ve ardından ilk regresyondan kalanlara yeni bir regresyon yerleştirilmesi, X'in tamamen e ile ilişkisiz olması nedeniyle, anlamlı bir sonuç vermeyecektir.

Bunu yazıyorum çünkü yukarıdaki türevlere tekabül eden yeni bir hat olmadığını söylediniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.