Rastgele Orman ve Son Derece Randomize Ağaçlar Arasındaki Fark


38

Rastgele Orman ve Son derece Rastgele Ağaçların, Rastgele Ormandaki ağaçların parçalarının deterministik olduğu anlamında farklılık gösterdiğini, Aşırı Rastgele Ağaçlar durumunda ise rastgele olduklarını anladım (daha kesin olmak gerekirse, bir sonraki bölünme en iyi bölmedir). Mevcut ağaç için seçilen değişkenlerde rastgele tekdüze bölmeler arasında). Ancak bu farklı bölünmelerin çeşitli durumlarda etkisini tam olarak anlamadım.

  • Önyargı / varyans açısından nasıl karşılaştırırlar?
  • Alakasız değişkenlerin varlığında nasıl karşılaştırırlar?
  • İlişkili değişkenlerin varlığında nasıl karşılaştırırlar?

2
(a) daha az optimal ayrılmalar nedeniyle ERT bazen daha önyargılı olabilir / ERT bazen ağaçların daha fazla dekor ilişkisi nedeniyle varyansı azaltacaktır; (b) Sanırım aynı, emin değilim; (c) Sanırım aynı, emin değilim. Ekstra: Rastgele değişken örneklemesi nedeniyle RF deterministikinin ayrılması demezdim ve ağaçlar da bootstrapping nedeniyle değil.
Soren Havelund Welling

Bir uniform splitnedir?
octavian

Yanıtlar:


27

Extra- (Randomized) -Trees (ET) makalesi önyargılı varyans analizi içermektedir. 16. sayfada, altı testte RF (ağaç sınıflandırma ve üç regresyon) dahil olmak üzere çoklu yöntemlerle bir karşılaştırma görebilirsiniz.

Her iki yöntem de aynıdır, çünkü çok sayıda gürültülü özellik olduğunda (yüksek boyutlu veri kümelerinde) ET biraz daha kötüdür.

Bununla birlikte, (belki de manuel) özellik seçiminin optimum olması koşuluyla, performans yaklaşık olarak aynı olduğu halde, ET'ler hesaplama açısından daha hızlı olabilir.

Makalenin kendisinden:

Algoritmanın analizi ve birkaç test problemi varyantında K'nin optimal değerinin belirlenmesi, değerin prensipte problem spesifiklerine, özellikle ilgisiz niteliklerin oranına bağlı olduğunu göstermiştir . [...] Önyargı / varyans analizi, Ekstra Ağaçların aynı zamanda önyargıyı artırırken varyansı azaltarak çalıştığını göstermiştir . [...] Randomizasyon optimum seviyenin üzerine çıkarıldığında sapma sıklıkla belirgin şekilde artarken varyans hafifçe azalır.

Her zamanki gibi gümüş mermi yok.


Pierre Geurts, Damien Ernst, Louis Wehenke. "Son derece rastgele ağaçlar"


2
Çok sayıda gürültülü özellik olduğunda ET'nin biraz daha kötü olduğu ile ilgili herhangi bir referans (ampirik veya teori)? Yoksa bu tecrübeye mi dayanıyor?
ramhiser

1
Tecrübelerime göre, bunun tersi doğrudur: Ekstra Ağaçlar birçok gürültülü özelliğe sahiptir. Büyük bir ormana sahip olmanız gerektiğine dair ihtarla (birçok tahminci, sklearn'deki n_ tahminciler) ve bunun çalışması için her bölmede (sklearn'deki max_freatures) dikkate alınan özelliklerin sayısını ayarlayın. Tek bir Ekstra Ağaç tek bir rastgele orman ağacından daha fazlasını giyecek, ancak birçok Ekstra Ağaçınız varsa, farklı şekillerde üst üste binme ve üst üste binme eğiliminde olmayacaklar. Genellikle 3000 tahminciye kadar önemli gelişmeler elde ediyorum.
denson,

3

Cevap buna bağlı olmasıdır. Sorununuz için hem rastgele ormanları hem de ekstra ağaçları denemenizi öneriyorum. Büyük ormanları deneyin (1000 - 3000 ağaç / tahminci, sklearn'deki n_ tahminciler) ve her split'te dikkate alınan özelliklerin sayısını (sklearn'deki max_features) ve split başına minimum örnekleri (sklearn'deki min_samples_split) ve maksimum ağaç derinliğini (maksimum ağaç derinliği) ayarlayın ( sklearn'deki max_depth). Bununla birlikte, fazla ayarlamanın bir çeşit fazlalık olabileceğini unutmayın .

Kişisel olarak üzerinde çalıştığım ve fazladan ağaçların çok gürültülü verilerle faydalı olduğu iki problem:

Geniş, gürültülü deniz yüzeyi özellik setlerinin makine öğrenmesi için karar ormanları

Yapıştırılan örneklerle etkili bir dağılmış protein bozukluğu tahmini


2

Cevaplar için çok teşekkür ederim! Hala sorularım olduğu için, bu iki yöntemin davranışı hakkında daha fazla bilgi sahibi olmak için bazı sayısal simülasyonlar yaptım.

  • Ekstra ağaçların gürültülü özelliklerin varlığında daha yüksek performans gösterdiği görülüyor.

Aşağıdaki resim, hedefle ilgisiz rastgele sütunların veri setine eklenmesinden dolayı performansı (çapraz doğrulama ile değerlendirilir) göstermektedir. Hedef, ilk üç sütunun yalnızca doğrusal bir birleşimidir. rastgele orman vs alakasız değişkenlerin varlığında ilave ağaçlar

  • Tüm değişkenler alakalı olduğunda, her iki yöntemin de aynı performansı sağladığı görülüyor,

  • Ekstra ağaçlar rastgele ormandan üç kat daha hızlı görünüyor (en azından, scikit'te uygulamayı öğrenme)

Kaynaklar

Yazının tamamına link: rastgele orman vs ekstra ağaçlar .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.