Gradyan ağacının güçlendirilmesinde ağaç boyutu


10

Friedman tarafından önerildiği gibi gradyan ağacı güçlendirmesi J, temel öğrenciler olarak terminal düğümleri (= yapraklar) olan karar ağaçlarını kullanır . Tam olarak Jdüğümleri olan bir ağacı büyütmenin birkaç yolu vardır, örneğin bir ağacı ilk derinlikte veya genişlikte ilk şekilde büyütebilir, ...

JDegrade ağacı güçlendirmek için tam olarak terminal düğümleri ile ağaç yetiştirmenin kesin bir yolu var mı ?

R'nin gbmpaketinin ağaç yetiştirme prosedürünü inceledim ve ağacın derinlik-ilk şekilde genişlediğini ve sol veya sağ alt düğümü genişletip genişletmemeyi seçmek için hata iyileştirmeye dayalı bir sezgisel tarama kullandığı anlaşılıyor - bu doğru mu?


2
gbm, 80'lerden beri bilinen bir algoritma olan ağaçları oluşturmak için CART kullanıyor. Sezgisel, karesel kayıp ile regresyon için oldukça standart bir seçim olan gini safsızlığı olarak adlandırılır.

2
Sınıflandırma Problemleri için Afaik gini safsızlığı kullanılır. Bununla birlikte, soru ağaçların boyutunu ifade eder.
Peter Prettenhofer

Her seferinde bir şube ekler. Bir sonraki bölünmenin sadece dalda değil, ağaçta kalan bölünmüş adayların en iyisi olması beni şaşırttı. Verilerin tam bir sayıyı desteklemediği zamanlar vardır - örneğin 'J' için çok küçük olduğunda.
EngrStudent

@EngrStudent'in dediği gibi, kesin sayıda düğümü zorlayamazsınız. Ancak, düğüm sayısı üzerinde bir üst sınır üzerinde bazı kontrolünüz vardır. düğüm başına minimum nesne sayısını kontrol eden gbmbir parametreye sahiptir n.minobsinnode. Tabii ki, o zaman düğüm sayısı NumberOfPoints / n.minobsinnode
G5W

Eğer 'J' yaprakları arıyordum, o zaman ağacı tamamen inşa ederdim ve sonra J yapraklarından daha fazla olduğunu varsayarsak, J'ye erik olurdum. Bu bana 'J' düğümleri verirdi ve en çok bunlar olurdu bilgilendirici böler - olabilecek en sağlıklı CART modeli olurdu. Yeterli bölünme yoksa, 'J' elde etmek için alan adlarında rastgele rastgele bölünebilirdim, ancak sahte ve biraz önemsiz olurdu. Yaprak içindeki değer dağılımına bakabilir ve CDF güdümlü bir yakınlaşma kullanabilirim, ancak bu yaprak başına ortalama modelden ayrılabilir.
EngrStudent

Yanıtlar:


2

R'lerde çözelti gbmtipik bir çözüm değildir.

Yaprak sayısı kısıtlandığında sözde (scikit-learn'da) gibi scikit-learnveya LightGBMkullanan diğer paketler BestFirstTreeBuilder. Tüm yaprakların öncelik sırasını destekler ve her yinelemede en iyi kirlilik azalmasını sağlayan yaprağı böler. Yani ne derinlik ilk ne de genişlik ilk, ama yapraklardaki hesaplamalara dayanan üçüncü bir algoritma.

benben

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.