Rastgele orman varsayımları

43

Ben rastgele ormanlara yeni geldiğim için hala bazı temel kavramlarla mücadele ediyorum.
Doğrusal regresyonda, bağımsız gözlemler, sürekli varyans ...

Rastgele orman kullandığımız zaman yaptığımız temel varsayımlar / hipotezler nelerdir?
Model varsayımları açısından rastgele orman ve naif koylar arasındaki anahtar farklar nelerdir?

regression classification random-forest

— user1848018
kaynak

33

Çok iyi bir soru için teşekkürler! Bunun arkasındaki sezgimi vermeye çalışacağım.

Bunu anlamak için, rastgele orman sınıflandırıcısının "bileşenlerini" hatırlayın (bazı değişiklikler var, ancak bu genel boru hattıdır):

Bireysel ağaç yapmanın her adımında, en iyi veri bölümlerini buluruz.
Bir ağaç oluştururken tüm veri kümesini değil, önyükleme örneğini kullanırız
Tek tek ağaç çıktılarını ortalama alarak toparlıyoruz (aslında 2 ve 3 birlikte daha genel torbalama prosedürü anlamına geliyor ).

İlk noktayı kabul et. En iyi split'i bulmak her zaman mümkün değildir. Örneğin, aşağıdaki veri setinde her bir bölünme, tam olarak bir yanlış sınıflandırılmış nesne verecektir. En iyi bölünme olmayan veri kümesi örneği

Ve tam olarak bu noktanın kafa karıştırıcı olabileceğini düşünüyorum: gerçekten, bireysel bölünmenin davranışı bir şekilde Naive Bayes sınıflandırıcısının davranışına benzer: eğer değişkenler bağımlıysa - Karar Ağaçları ve Naive Bayes sınıflandırıcısı için de daha iyi bir bölünme olmaz (sadece hatırlatmak için: bağımsız değişkenler, Naive Bayes sınıflandırıcısında yaptığımız temel varsayımdır; diğer tüm varsayımlar, seçtiğimiz olasılıksal modelden gelir).

Ancak karar ağaçlarının büyük avantajı burada geliyor: Herhangi bir bölünmeyi alıyoruz ve daha fazla bölünmeye devam ediyoruz . Ve aşağıdaki bölünmeler için mükemmel bir ayrılık bulacağız (kırmızı). Karar sınırı örneği

Ve olasılıksal bir modelimiz olmadığı için, sadece ikili bölünme olduğu için, herhangi bir varsayımda bulunmamız gerekmez.

Bu, Karar Ağacı ile ilgiliydi, ancak Rastgele Orman için de geçerli. Aradaki fark, Random Forest için Bootstrap Aggregation'ı kullanmamızdır. Altında bir model yok ve dayandığı tek varsayım örneklemenin temsili olduğu . Ancak bu genellikle ortak bir varsayımdır. Örneğin, bir sınıf iki bileşenden oluşuyorsa ve veri setimizde bir bileşen 100 örnekle temsil edilir ve başka bir bileşen 1 örnekle temsil edilirse - muhtemelen çoğu bireysel karar ağacı yalnızca ilk bileşeni görür ve Rastgele Orman ikinciyi yanlış sınıflandırır . Zayıf temsil edilen ikinci bileşen örneği

Umarım biraz daha anlayışlı olur.

— Dmitry Laptev
kaynak

10

2010 yılında yayınlanan bir makalede, yazarlar rastgele orman modellerinin değişkenlerin çok boyutlu istatistiksel alanda çok noktalı çizgisel olduğu zaman değişkenlerin önemini güvenilir bir şekilde tahmin ettiğini belgelemişlerdir. Genellikle rastgele orman modelleri çalıştırmadan önce bunu kontrol ediyorum.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

— Mina
kaynak

3

Colorado Eyaleti yazarları tarafından makine öğrenmesi algoritmaları konusunda Makine Öğrenmesi'nde Berkeley yazarları üzerine yazılan "Ekoloji Alanında Yellowstone Milli Parkı'ndaki peyzaj genetiği ile bağlantıyı sıkılaştırıyor" sonuçlarına inanıyor musunuz?

— Hack-R,

8

Birbirleriyle çelişkilerinin olduğunu sanmıyorum. Breiman, çok-boyutlu uzayda bu çok-doğrusallık özel vakasını soruşturmadı. Ayrıca, Colorado Eyaletindeki insanlar da akıllı olabilirler - ve bu adamlar.

— Mina