İkinci sorunuzla başlamak daha sonra ilkine gitmek daha kolaydır.
sarkık
Rastgele Orman bir torbalama algoritmasıdır. Varyansı azaltır.
Karar Ağaçları gibi çok güvenilmez modellere sahip olduğunuzu söyleyin. (Neden güvenilmez? Çünkü verilerinizi biraz değiştirirseniz, oluşturulan karar ağacı çok farklı olabilir.) Böyle bir durumda, torbalama yoluyla sağlam bir model oluşturabilir (varyansı azaltabilirsiniz) - torbalama, farklı modeller oluşturduğunuzda Elde edilen modeli daha sağlam hale getirmek için verilerinizi yeniden örnekleyerek.
Rastgele orman karar ağaçları için uygulanan torbalama olarak adlandırdığımız şeydir, ancak diğer torbalama algoritmalarından farklı değildir.
Bunu neden yapmak istiyorsun? Bu soruna bağlı. Ancak genellikle, modelin kararlı olması çok arzu edilir.
Arttırılması
Yükseltme, varyansı azaltır ve ayrıca önyargıyı azaltır. Birden fazla model kullanıyorsanız (torbalama) varyansı azaltır. Önceki modellerin (hata yapan kısım) ne kadar hata yaptığını söyleyerek sonraki modeli eğiterek önyargıyı azaltır.
İki ana algoritma vardır:
- Adaboost: Bu orijinal algoritmadır; Önceki modellere, önceki modellerin yanlış yaptığı daha ağır gözlemleri cezalandırmalarını söylersiniz.
- Degrade artırma: sonraki her bir modeli artıkları kullanarak eğitirsiniz (öngörülen ve doğru değerler arasındaki fark)
Bu topluluklarda, temel öğreniciniz zayıf olmalıdır . Verilerin üzerine geçerse, sonraki modellerin üzerine inşa edeceği artıklar veya hatalar olmayacaktır. Neden bu iyi modeller? Eh, Kaggle gibi web sitelerinde çoğu yarışma degrade artırma ağaçları kullanarak kazanılmıştır. Veri bilimi ampirik bir bilim, "işe yarıyor çünkü" yeterince iyi. Her neyse, artırma modellerinin üst üste gelebileceğinin farkında olun (ampirik olarak da yaygın değildir).
Özellikle degradenin artmasının bir başka nedeni de oldukça havalıdır: çünkü türev dışbükey olmasa bile farklı kayıp fonksiyonlarını kullanmayı çok kolaylaştırır. Örneğin, olasılıklı tahmin kullanırken, langırt işlevi gibi şeyleri kayıp işleviniz olarak kullanabilirsiniz; sinir ağları ile daha zor olan bir şey (türev her zaman sabittir).
[İlginç tarihsel not: Güçlendirme aslında " zayıf modeller kullanarak daha güçlü bir model inşa edebilir miyiz " sorusuyla motive edilmiş teorik bir icattı. ]
Dikkat: İnsanlar bazen rastgele ormanları ve degrade artırıcı ağaçları karıştırırlar, çünkü ikisi de karar ağaçları kullanır, ancak ikisi çok farklı topluluk aileleridir.