RandomForestClassifier ve ExtraTreesClassifier'ın Scikit'te Öğrenilmesi


95

Scikit'te RandomForestClassifier ve ExtraTreesClassifier arasındaki farkı herkes açıklayabilir mi? Gazeteyi okumak için epey zaman harcadım:

P. Geurts, D. Ernst. Ve L. Wehenkel, "Son derece randomize ağaçlar", Makine Öğrenimi, 63 (1), 3-42, 2006

ÖB için farklar bunlar gibi görünüyor:

1) Bir bölmede değişkenleri seçerken, eğitim setinin bir önyükleme örneği yerine tüm eğitim setinden örnekler alınır.

2) Bölmeler, her bölmedeki örnekteki değerler aralığından tamamen rastgele seçilir.

Bu iki şeyin sonucu çok daha fazla "yapraktır".


7
Ekstra sınıflandırıcıyla bu kadar ilgilenmemin nedeni, belirli bir problemde ET ile çok daha iyi sonuçlar almamdır. Özellik vektörüm büyük> 200 değişken ve değişkenler çok gürültülü. Standart RDF sınıflandırıcı kötü sonuçlar alıyor ancak ET,>% 90 F1 puanları alıyor. Sınıflar, nispeten az sayıda pozitif sınıf örneği ve birçok olumsuzluk ile dengesizdir.
denson

Ayrıca şu daha yeni yanıta bakın: stats.stackexchange.com/questions/175523/…
Archie

Yanıtlar:


59

Evet, her iki sonuç da doğrudur, ancak scikit-learn'deki Random Forest uygulaması önyükleme yeniden örneklemesini etkinleştirmeyi veya devre dışı bırakmayı mümkün kılar.

Uygulamada, RF'ler genellikle ET'lerden daha kompakttır. ET'lerin hesaplama açısından eğitilmesi genellikle daha ucuzdur ancak çok daha fazla büyüyebilirler. ET'lerin bazen RF'lerin daha iyi genelleme yapabiliriz ama buna hem birinci denemeden durum (ve ayar zaman tahmin etmek zor n_estimators, max_featuresve min_samples_splitçapraz valide ızgara araması tarafından).


21

ExtraTrees sınıflandırıcı her zaman özelliklerin fraksiyonları üzerinde rastgele bölünmeleri test eder (özelliklerin fraksiyonları üzerinde tüm olası bölünmeleri test eden RandomForest'in aksine)


13
Bu yorumun kelimenin tam anlamıyla bir Coursera sınav sorusunun kelimesi kelimesine cevabı olmasına sevindim
Bob

Evet @ Bob öyle. Bu cevabı çok faydalı buluyorum, bu yüzden buraya gönderdim, diğerlerine ekstra ağaç ve rastgele orman arasındaki farkı anlamada yardımcı oluyor.
Muhammad Umar Amanat

3
aynı dersten geldi. ve bu cevap yardımcı oldu!
killezio

evet @ skeller88 bu harika bir kurs. Ayrıca bu bakmak gerekir coursera.org/learn/competitive-data-science?specialization=aml
Muhammed Ömer Amanat

0

Rastgele ormanlar ve ekstra ağaçlar (genellikle aşırı rastgele ormanlar olarak adlandırılır) arasındaki temel fark, yerel olarak en uygun özellik / bölünme kombinasyonunu (rastgele orman için) hesaplamak yerine, söz konusu her özellik için rastgele bir değerin seçilmesidir. bölme için (ekstra ağaçlar için). Rastgele orman ve ekstra ağaç arasındaki farklar hakkında daha fazla bilgi edinmek için iyi bir kaynak.


Sanırım bir bağlantı yapıştırmak istedin.
Tomasz Gandor
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.