Friedman'ın gradyan güçlendirme makinesi Breiman'ın Rastgele Ormanından daha iyi performans elde edebilir mi? Öyleyse, hangi koşullarda veya ne tür veri seti gbm'yi daha iyi hale getirebilir?
Friedman'ın gradyan güçlendirme makinesi Breiman'ın Rastgele Ormanından daha iyi performans elde edebilir mi? Öyleyse, hangi koşullarda veya ne tür veri seti gbm'yi daha iyi hale getirebilir?
Yanıtlar:
Aşağıda, Boosting'in uygulamada Rastgele Orman'ın genel olarak neden daha iyi performans gösterdiğine ilişkin bir açıklama verilmektedir, ancak belirli ayarlarda Boosting'in RF üzerindeki kenarını açıklayabileceği diğer farklı faktörleri bilmek çok ilgi duyacağım.
Temel olarak, çerçevesi içinde RF, sadece varyansı azaltarak hatayı azaltabilir ( Hastie ve ark. 2009 s. 588). Önyargı sabittir ve ormandaki tek bir ağacın yanlılığına eşittir (bu nedenle çok düşük önyargıya sahip çok büyük ağaçlar yetiştirme ihtiyacı).
Öte yandan, Artırma önyargıyı azaltır (her yeni ağacı önceki ağaç tarafından kaçırılanın yakalanacağı şekilde ekleyerek), aynı zamanda varyansı da (birçok modeli birleştirerek) azaltır .
Bu nedenle, Yükseltme her iki cephedeki hatayı azaltırken, RF yalnızca varyansı azaltarak hatayı azaltabilir. Tabii ki, dediğim gibi, Boosting'in daha iyi performans göstermesi için pratikte gözlemlenen başka açıklamalar da olabilir. Örneğin, yukarıda adı geçen kitabın 591. sayfasında, Artırmanın iç içe geçmiş küre problemi üzerinde RF'den daha iyi performans gösterdiği söylenir, çünkü bu durumda gerçek karar sınırı toplanır . (?) Ayrıca Boosting'in spam ve California konut verileri için RF'den daha iyi olduğunu bildiriyorlar.
RF'den daha iyi performans göstermenin diğer bir referansı Caruana ve Niculescu-Mizil 2006'dır . Ne yazık ki, sonuçları rapor ediyorlar ama sonuçlara neyin sebep olduğunu açıklamaya çalışmıyorlar. İki farklı sınıflandırıcıyı (ve daha fazlasını) 8 farklı performans metriği için 11 ikili sınıflandırma probleminde karşılaştırdılar.
Bayerj'in dediği gibi, a priori bilmenin bir yolu yok!
Rastgele Ormanların kalibre edilmesi nispeten kolaydır: çoğu uygulamanın varsayılan parametreleri (örneğin R veya Python) mükemmel sonuçlar verir.
Öte yandan, GBM'lerin ayarlanması zordur (çok fazla sayıda ağaç fazladan oturmaya yol açar, maksimum derinlik kritiktir, öğrenme oranı ve ağaç sayısı birlikte hareket eder ...) ve daha uzun süre eğitilir (çok iş parçacıklı uygulamalar azdır) . Gevşek bir ayar düşük performansa neden olabilir.
Ancak, tecrübelerime göre, GBM'lere yeterince zaman harcarsanız, rastgele ormandan daha iyi performans elde etme olasılığınız yüksektir.
Düzenle. GBM'ler neden Rastgele Ormanlardan daha iyi performans gösterir? Antoine'ın cevabı çok daha titiz, bu sadece sezgisel bir açıklama. Daha kritik parametreleri var. Rastgele ormanlar gibi, ağaç sayısını ve ağaçların büyüdüğü değişken sayısını kalibre edebilirsiniz . Ancak öğrenme hızını ve maksimum derinliği de ayarlayabilirsiniz. Rastgele bir ormandan daha farklı modeller gözlemlediğiniz için, daha iyi bir şey bulma olasılığınız daha yüksektir.
A loosely performed tuning may lead to dramatic performance?
Yanlış yorumlamaya dikkat edin, çünkü İngilizce'de dramatic
çok iyi, olağanüstü, olağanüstü, vb! Sanırım söylemek istediğin tam tersi ... Buna ek olarak, GBM'lerin neden dikkatli bir şekilde ayarlandığına göre herhangi bir açıklamanız var mı? Bu temelde soru ...