Gradyan Artırıcı Ağaç vs Rastgele Orman


110

Friedman'ın önerdiği şekilde yükselen gradyan ağacı karar ağaçları temel öğrenenler olarak kullanır. Temel karar ağacını olabildiğince karmaşık (tamamen büyümüş) veya daha mı basit hale getirmemiz gerektiğini merak ediyorum. Seçim için bir açıklama var mı?

Rastgele Orman, karar ağacı olarak temel öğrenenler olarak kullanılan başka bir topluluk yöntemidir. Anlayışıma dayanarak, genellikle neredeyse tamamen büyümüş karar ağaçlarını her yinelemede kullanıyoruz. Haklı mıyım



@Naghmeh - Ölü bağlantı; taşınmış için görünür xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

Yanıtlar:


149

error = bias + variance

  • Güçlendirme zayıf öğrencilere (yüksek önyargı, düşük varyans) dayanmaktadır . Karar ağaçları açısından zayıf öğrenenler sığ ağaçlardır, bazen karar kütükleri kadar küçük (iki yapraklı ağaçlar). Artırma, çoğunlukla yanlılığı azaltarak hatayı azaltır (ve aynı zamanda bir dereceye kadar varyansı, çıktıyı birçok modelden toplayarak).
  • Öte yandan, Random Forest, tam olarak yetişen karar ağaçları dediğiniz gibi kullanır (düşük sapma, yüksek sapma). Hata azaltma görevini ters yönde ele alır: varyansı azaltarak. Ağaçlar, varyanstaki düşüşü en üst düzeye çıkarmak için ilişkisiz hale getirilmiştir, ancak algoritma önyargıyı azaltamaz (bu, ormandaki tek bir ağacın önyargısından biraz daha yüksektir). Bu nedenle, büyük, dallanmamış ağaçlara olan ihtiyaç, böylece önyargı başlangıçta mümkün olduğu kadar düşüktür.

Lütfen, Arttırmanın (sıralı) aksine, RF'nin paralel olarak ağaç yetiştirdiğini unutmayın . Bu iterativeyüzden kullandığın terim uygunsuz.


1
"Ağaçlar, varyanstaki düşüşü en üst düzeye çıkarmak için ilişkisiz hale getirilir, ancak algoritma önyargıyı (ormandaki tek bir ağacın önyargısından biraz daha yüksek olan) önyargıyı azaltamaz" - bir bireyin önyargısından biraz daha yüksek olan kısım ormandaki ağaç "yanlış görünüyor. Bkz. Web.stanford.edu/~hastie/Papers/ESLII.pdf bölüm 15.4.2: " Torbalamada olduğu gibi, rastgele bir ormanın önyargısı, tek tek örneklenen ağaçların önyargısıyla aynıdır." Belki de, "tamamen yetişkin bir ağacın orijinal verilere uygun önyargısından biraz daha yüksek" anlamına mı geliyorsunuz?
Adrian

1
@gung OP'de yanıtlanmayan önemli bir soru olduğunu düşünüyorum, ki bu: neden GBM'nin 1. adımında tamamen yetişkin bir ağaç kullanmıyorsunuz? Neden zayıf öğrenen bir dizi kullanılsın, tek bir büyümüş ağaçtan daha iyidir? Bu konuda merak ediyorum
ftxx

55

Bu soru bu çok güzel yazı ile ele alınmıştır. Lütfen buna ve oradaki referanslara bir bakın. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

Makalede kalibrasyon hakkında konuştuğuna ve bunun hakkında başka (güzel) bir blog yayınına bağlantı olduğuna dikkat edin. Yine de, Arttırılmış Kalibre Edilmiş Olasılıkları Alma makalesinin , artırılmış sınıflandırıcılar bağlamında hangi kalibrasyonun ne olduğunu ve bunun için standart metotların ne olduğunu daha iyi anlamanızı sağlar.

Ve nihayet bir yönü eksik (biraz daha teorik). Hem RF hem de GBM bir araya getirilmiş yöntemlerdir; yani, çok sayıda daha küçük sınıflandırıcıdan bir sınıflandırıcı oluşturursunuz. Şimdi temel fark, kullanılan yönteme dayanmaktadır:

  1. RF, çok fazla uydurma eğilimli karar ağaçları kullanıyor. Daha yüksek doğruluk elde etmek için RF, torbalamaya dayalı çok sayıda ürün yaratmaya karar verir . Temel fikir, verileri tekrar tekrar örneklemek ve her örnek için yeni bir sınıflandırıcı tanımlamaktır. Farklı sınıflandırıcılar verilere farklı bir şekilde uyum sağlar ve oylama yoluyla bu farklılıkların ortalaması alınır.
  2. GBM, zayıf sınıflandırıcılara dayanan bir yükseltme yöntemidir . Fikir, bir seferde bir sınıflandırıcı eklemek, böylece bir sonraki sınıflandırıcı, önceden eğitilmiş topluluğu geliştirmek için eğitiliyor. Her yinelemede RF için sınıflandırıcının diğerlerinden bağımsız olarak eğitildiğine dikkat edin.

3
Yanıtınızın, RF’nin GBM’den daha fazla desteklediğine dair doğru bir sonuç olur mu?
42

4
@ 8forty Bu sonuca varamazdım - RF'deki tek bir ağaç GBM'deki tek bir ağaçtan daha fazla giyecek olsa da (çünkü bunlar çok daha küçüktür), RF'de ise bu ağaç örtüsünün çok fazla ağaç kullanılırken ortalaması alınacaktır GBM ne kadar fazla ağaç eklerseniz, fazla takılma riski de o kadar yüksek olur. Kısacası, N (kullanılan ağaç sayısı) sonsuzluğa giderken, RF’nin GBM’den çok daha az tüketmesini bekliyorum
Ant
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.