Benim sorum: Rasgele orman, neden ağaç düzeyinde değil de her ağaçtaki düğüm düzeyinde bölünmeye yönelik özelliklerin rastgele alt kümelerini ele alıyor ?
Arka plan: Bu bir tarih sorusu. Tin Kam Ho , 1998'de her ağacın büyümesi için kullanılacak bir özellik alt kümesini rastgele seçerek "karar ormanları" oluşturma üzerine bu makaleyi yayınladı . Birkaç yıl sonra, 2001 yılında Leo Breiman , özellik alt kümesinin rastgele olduğu seminal Rastgele Orman kağıdını yayınladı. her ağaçta değil, her ağaçtaki her düğümde seçilir . Breiman Ho'dan bahsederken, özellikle ağaç seviyesinden düğüm seviyesindeki rastgele özellik seçimine geçişi açıklamamıştır.
Bu gelişimi neyin motive ettiğini merak ediyorum. Ağaç düzeyinde özellik alt kümesinin seçilmesinin yine de ağaçların istenen dekor ilişkisini gerçekleştireceği görülüyor.
Teorim: Bu başka bir yerde eklemlenmiş görmedim, ancak rastgele altuzay yöntemi, özellik önemi tahminleri açısından daha az etkili olacak gibi görünüyor. Değişken önemde tahminler elde etmek için, her ağaç için, özelliklere rastgele bir şekilde izin verilir ve torba dışı gözlemler için yanlış sınıflandırmadaki artış veya hata artışı kaydedilir. Bu rastgele permütasyondan kaynaklanan yanlış sınıflandırma veya hata artışının yüksek olduğu değişkenler en büyük öneme sahip olanlardır.
Rastgele alt uzay yöntemi kullanırsanız, her ağaç için, sadece düşünen arasında özelliklerinden. Tüm tahmincilerini bir kez bile düşünmek birkaç ağaç alabilir . Öte yandan, her bir düğümdeki özelliklerinin farklı bir alt kümesini , her bir özelliği daha az ağaçtan sonra daha fazla ele alacağız ve bize özellik öneminin daha sağlam bir tahminini vereceğiz.
Şimdiye kadar baktım: Şimdiye kadar, Breiman'ın makalesini ve Ho'nun makalesini okudum ve kesin bir cevap bulmadan yöntemlerin karşılaştırılması için geniş bir çevrimiçi arama yaptım. Benzer bir sorunun daha önce sorulduğunu unutmayın . Bu soru spekülasyonumu / çalışmamı olası bir çözüme dahil ederek biraz daha ileri gidiyor. İki yaklaşımı karşılaştıran cevaplar, ilgili alıntılar veya simülasyon çalışmaları ile ilgilenirim. Hiçbiri gelmiyorsa, iki yöntemi karşılaştırarak kendi simülasyonumu çalıştırmayı planlıyorum.