Neden XGBoost ve Random Forest'a ihtiyacımız var?


25

Birkaç kavram konusunda net değildim:

  1. XGBoost, zayıf öğrencileri güçlü öğrencilere dönüştürür. Bunu yapmanın avantajı nedir? Tek bir ağacı kullanmak yerine birçok zayıf öğrenciyi birleştirmek mi?

  2. Rastgele Orman bir ağaç oluşturmak için ağaçtan çeşitli örnekler kullanır. Sadece tekil bir ağaç kullanmak yerine bu yöntemin avantajı nedir?

Yanıtlar:


35

İkinci sorunuzla başlamak daha sonra ilkine gitmek daha kolaydır.

sarkık

Rastgele Orman bir torbalama algoritmasıdır. Varyansı azaltır.

Karar Ağaçları gibi çok güvenilmez modellere sahip olduğunuzu söyleyin. (Neden güvenilmez? Çünkü verilerinizi biraz değiştirirseniz, oluşturulan karar ağacı çok farklı olabilir.) Böyle bir durumda, torbalama yoluyla sağlam bir model oluşturabilir (varyansı azaltabilirsiniz) - torbalama, farklı modeller oluşturduğunuzda Elde edilen modeli daha sağlam hale getirmek için verilerinizi yeniden örnekleyerek.

Rastgele orman karar ağaçları için uygulanan torbalama olarak adlandırdığımız şeydir, ancak diğer torbalama algoritmalarından farklı değildir.

Bunu neden yapmak istiyorsun? Bu soruna bağlı. Ancak genellikle, modelin kararlı olması çok arzu edilir.

Arttırılması

Yükseltme, varyansı azaltır ve ayrıca önyargıyı azaltır. Birden fazla model kullanıyorsanız (torbalama) varyansı azaltır. Önceki modellerin (hata yapan kısım) ne kadar hata yaptığını söyleyerek sonraki modeli eğiterek önyargıyı azaltır.

İki ana algoritma vardır:

  • Adaboost: Bu orijinal algoritmadır; Önceki modellere, önceki modellerin yanlış yaptığı daha ağır gözlemleri cezalandırmalarını söylersiniz.
  • Degrade artırma: sonraki her bir modeli artıkları kullanarak eğitirsiniz (öngörülen ve doğru değerler arasındaki fark)

Bu topluluklarda, temel öğreniciniz zayıf olmalıdır . Verilerin üzerine geçerse, sonraki modellerin üzerine inşa edeceği artıklar veya hatalar olmayacaktır. Neden bu iyi modeller? Eh, Kaggle gibi web sitelerinde çoğu yarışma degrade artırma ağaçları kullanarak kazanılmıştır. Veri bilimi ampirik bir bilim, "işe yarıyor çünkü" yeterince iyi. Her neyse, artırma modellerinin üst üste gelebileceğinin farkında olun (ampirik olarak da yaygın değildir).

Özellikle degradenin artmasının bir başka nedeni de oldukça havalıdır: çünkü türev dışbükey olmasa bile farklı kayıp fonksiyonlarını kullanmayı çok kolaylaştırır. Örneğin, olasılıklı tahmin kullanırken, langırt işlevi gibi şeyleri kayıp işleviniz olarak kullanabilirsiniz; sinir ağları ile daha zor olan bir şey (türev her zaman sabittir).

[İlginç tarihsel not: Güçlendirme aslında " zayıf modeller kullanarak daha güçlü bir model inşa edebilir miyiz " sorusuyla motive edilmiş teorik bir icattı. ]


Dikkat: İnsanlar bazen rastgele ormanları ve degrade artırıcı ağaçları karıştırırlar, çünkü ikisi de karar ağaçları kullanır, ancak ikisi çok farklı topluluk aileleridir.


1
Artırma , artık ve varyansı ağırlıklı bir ortalama alarak tekrarlayan bir şekilde modelleyerek önyargıyı azaltır ; bakınız § 5.5 Önyargı, Varyans ve Kararlılık , s. 118, Güçlendirme: Temeller ve Algoritmalar , Robert E. Schapire, Yoav Freund.
Emre

@Emre, elbette haklısın. Biri Gönderimimi düzenlenmiş ve değiştirilemez azaltmak yoluyla artış . Geri aldım.
Ricardo Cruz

8

Bir ağaç oluştururken, düğümleri bölmek için bazı kriterler tanımlamanız gerekir. Bunlar Bilgi Kazancı ve Gini Endeksi gibi ölçümleri içerir. Bunlar sezgisel yaklaşımlardır, mümkün olan en iyi bölünmeyi sağlama garantisi yoktur .

Ağırlık, bazı niteliklerin daha az alakalı ve / veya daha fazla gürültülü olması ve gerçek verilerde ortaya çıkan diğer birçok sorunla ilgilidir. Kısacası, iyi bir hesaplama zamanında mükemmel bir ağaç yapamazsınız (elbette tüm olası ağaçları inşa edebilir ve en iyisini test edebilirsiniz, ancak daha sonra orta ölçekli bir veri kümesinde bile eğitim için birkaç yıl beklemeniz gerekir).

En iyi ağaca sahip olamadığımız için, yaklaşımlarımız var. Yaklaşımlardan biri, birçok ağacın (farklı veri bölümleri veya öznitelik bölümleri kullanılarak) inşa edilmesidir, çünkü çoğu ağacın biraz doğru olmasını bekleriz ve sınıflandırmalarını oylama sisteminde dikkate alırız; bu, çoğu gürültüyle ilgilenmelidir, dikey bölüm, ilgisiz niteliklerle başa çıkabilir, sezgisel görüşmenin daha az önemi ve belki başka avantajları vardır.


1

İyi cevaplara küçük bir katkı eklerdim. Asıl sorun fazla güçlendirme. Birden fazla parametreye sahip olduğunuz ve doğrusal olmayan fonksiyonlar eklediğiniz anda tüm algoritmalar geçersiz kılmaya başlar. Veride olmayan bir şey görüyorlar. Karanlık ya da sis güçlü olduğu zaman insanlar karanlıkta / siste bulunmayan şeyleri görme eğilimindedirler. Hemen hemen tüm hesaplama algoritmaları, insanlardan daha fazla elverişli değil. Doğrusal regresyonlar bile değişkenler yüksek oranda ilişkilendirildiğinde garip katsayılar göstermeye başlar. Fazla uyuşmaz olmasaydı, bu algoritmaların dayandığı olağan karar ağaçları, Rastgele Orman ya da XGBoost'tan daha iyi olurdu.

Aşırı uyarlamanın neden gerçekleştiği ve bazı algoritmaların neden diğerlerinden daha iyi olduğu konusunda kesin bir bilim yoktur. Teoride ARIMA modelleri çok sağlamdır, ancak pratikte üssel pürüzsüzleştirme tekniklerinin kullanılmasının daha iyi olduğunu ve ARIMA'nın ARIMA'ya göre davranan değişkenleri bile farklı parametrelerle ayırt edemediğini göstermektedir.

Bazı sinir ağları ve özellikle evrişimsel sinir ağlarının aşırı uyumsuz olduğu görülmektedir. Aynı zamanda, tamamen bağlı sinir ağlarının orijinal fikri, fazla uydurma nedeniyle yüksek sayıda nöronla başarısız oluyor.

Aşırı yükleme ile mücadele için temel olanaklar:

  1. rasgele örnekleme
  2. birden fazla modelde ortalama alma
  3. modeli randomize (sinir ağlarını eğitirken nöronların rasgele düşmesi)

Algoritmaları doğru anlarsam, hem Random Forest hem de XGBoost, birden fazla modelde rastgele örnekleme ve ortalama yaparlar ve böylece aşırı uyumu azaltmayı başarırlar.

ImageNet imaj tanıma yarışmasında, 2016 için en iyi model (Shao ve ark.) Birkaç iyi modelin bir kombinasyonuydu. Bazıları önceki yıllarda yarışmayı kazandı. Bu model, dayandığı modellerden% 20 daha az hataya sahipti. Birden fazla model arasında ortalama alma, fazla takma ile mücadelede güçlü olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.