Çok iyi bir soru için teşekkürler! Bunun arkasındaki sezgimi vermeye çalışacağım.
Bunu anlamak için, rastgele orman sınıflandırıcısının "bileşenlerini" hatırlayın (bazı değişiklikler var, ancak bu genel boru hattıdır):
- Bireysel ağaç yapmanın her adımında, en iyi veri bölümlerini buluruz.
- Bir ağaç oluştururken tüm veri kümesini değil, önyükleme örneğini kullanırız
- Tek tek ağaç çıktılarını ortalama alarak toparlıyoruz (aslında 2 ve 3 birlikte daha genel torbalama prosedürü anlamına geliyor ).
İlk noktayı kabul et. En iyi split'i bulmak her zaman mümkün değildir. Örneğin, aşağıdaki veri setinde her bir bölünme, tam olarak bir yanlış sınıflandırılmış nesne verecektir.
Ve tam olarak bu noktanın kafa karıştırıcı olabileceğini düşünüyorum: gerçekten, bireysel bölünmenin davranışı bir şekilde Naive Bayes sınıflandırıcısının davranışına benzer: eğer değişkenler bağımlıysa - Karar Ağaçları ve Naive Bayes sınıflandırıcısı için de daha iyi bir bölünme olmaz (sadece hatırlatmak için: bağımsız değişkenler, Naive Bayes sınıflandırıcısında yaptığımız temel varsayımdır; diğer tüm varsayımlar, seçtiğimiz olasılıksal modelden gelir).
Ancak karar ağaçlarının büyük avantajı burada geliyor: Herhangi bir bölünmeyi alıyoruz ve daha fazla bölünmeye devam ediyoruz . Ve aşağıdaki bölünmeler için mükemmel bir ayrılık bulacağız (kırmızı).
Ve olasılıksal bir modelimiz olmadığı için, sadece ikili bölünme olduğu için, herhangi bir varsayımda bulunmamız gerekmez.
Bu, Karar Ağacı ile ilgiliydi, ancak Rastgele Orman için de geçerli. Aradaki fark, Random Forest için Bootstrap Aggregation'ı kullanmamızdır. Altında bir model yok ve dayandığı tek varsayım örneklemenin temsili olduğu . Ancak bu genellikle ortak bir varsayımdır. Örneğin, bir sınıf iki bileşenden oluşuyorsa ve veri setimizde bir bileşen 100 örnekle temsil edilir ve başka bir bileşen 1 örnekle temsil edilirse - muhtemelen çoğu bireysel karar ağacı yalnızca ilk bileşeni görür ve Rastgele Orman ikinciyi yanlış sınıflandırır .
Umarım biraz daha anlayışlı olur.