Rastgele Orman'da neden özelliklerin rastgele bir alt kümesi, ağaç düzeyinde değil düğüm düzeyinde seçiliyor?


14

Benim sorum: Rasgele orman, neden ağaç düzeyinde değil de her ağaçtaki düğüm düzeyinde bölünmeye yönelik özelliklerin rastgele alt kümelerini ele alıyor ?

Arka plan: Bu bir tarih sorusu. Tin Kam Ho , 1998'de her ağacın büyümesi için kullanılacak bir özellik alt kümesini rastgele seçerek "karar ormanları" oluşturma üzerine bu makaleyi yayınladı . Birkaç yıl sonra, 2001 yılında Leo Breiman , özellik alt kümesinin rastgele olduğu seminal Rastgele Orman kağıdını yayınladı. her ağaçta değil, her ağaçtaki her düğümde seçilir . Breiman Ho'dan bahsederken, özellikle ağaç seviyesinden düğüm seviyesindeki rastgele özellik seçimine geçişi açıklamamıştır.

Bu gelişimi neyin motive ettiğini merak ediyorum. Ağaç düzeyinde özellik alt kümesinin seçilmesinin yine de ağaçların istenen dekor ilişkisini gerçekleştireceği görülüyor.

Teorim: Bu başka bir yerde eklemlenmiş görmedim, ancak rastgele altuzay yöntemi, özellik önemi tahminleri açısından daha az etkili olacak gibi görünüyor. Değişken önemde tahminler elde etmek için, her ağaç için, özelliklere rastgele bir şekilde izin verilir ve torba dışı gözlemler için yanlış sınıflandırmadaki artış veya hata artışı kaydedilir. Bu rastgele permütasyondan kaynaklanan yanlış sınıflandırma veya hata artışının yüksek olduğu değişkenler en büyük öneme sahip olanlardır.

Rastgele alt uzay yöntemi kullanırsanız, her ağaç için, sadece düşünen arasında özelliklerinden. Tüm tahmincilerini bir kez bile düşünmek birkaç ağaç alabilir . Öte yandan, her bir düğümdeki özelliklerinin farklı bir alt kümesini , her bir özelliği daha az ağaçtan sonra daha fazla ele alacağız ve bize özellik öneminin daha sağlam bir tahminini vereceğiz.mppmip

Şimdiye kadar baktım: Şimdiye kadar, Breiman'ın makalesini ve Ho'nun makalesini okudum ve kesin bir cevap bulmadan yöntemlerin karşılaştırılması için geniş bir çevrimiçi arama yaptım. Benzer bir sorunun daha önce sorulduğunu unutmayın . Bu soru spekülasyonumu / çalışmamı olası bir çözüme dahil ederek biraz daha ileri gidiyor. İki yaklaşımı karşılaştıran cevaplar, ilgili alıntılar veya simülasyon çalışmaları ile ilgilenirim. Hiçbiri gelmiyorsa, iki yöntemi karşılaştırarak kendi simülasyonumu çalıştırmayı planlıyorum.


2
Herhangi bir referans göstermeyeceğim, hadi buna bir yorum diyelim. Hangi değişkenlerin yararlı olduğunu anlamaya çalışıyorsanız, belirli bir değişkenin kritik olması, ancak verilerin küçük bir parçasında olması olabilir. Bunu, düğüm seviyesinde değişkenleri torbalayarak bulabilirsiniz. Bunu asla ağaç seviyesinde torbalama ile keşfedemezsiniz.
meh

2
Breiman'ın bununla ilgili bir yorumu var (imho) seminal gazetesinde, 'İstatistikler- İki Kültür'. Onun anlamı, bazen bir değişkenin öneminin başka bir değişken tarafından maskelenmesidir. Düğüm seviyesinde torbalama, bir değişken için neyin ne zaman olduğunu görmenizi sağlayacaktır.
meh

1
Yorumlar için teşekkürler. Verimlilik hakkındaki düşünceme geri dönelim: bir çift değişkenin ilişkili olduğunu ve dediğiniz gibi birinin öneminin bir başkasının önemini "gizlediğini" varsayalım. Yeterli sayıda ağaç içeren bir RF belirleyicisi oluşturduysak ve ağaç düzeyinde özellik alt kümesini kullanırsak, sonunda "maskelenmiş" özellikli ve "maskeleme" özelliği olmadan, öncekinin etkisine maruz kalmadan önemini almak için yeterli ağaç olmaz mıydı? ikincisi? En azından aynı fikirden bahsettiğimizi düşünüyorum. Teşekkürler!
djlid

4
Yapabilirsiniz, ancak daha fazla ağaç inşa etmeniz gerektiğini düşünün! Aynı zamanda net değil. A değişkeni, hiçbirinde B değişkeni parlamayacak şekilde bölünmelere neden olabilir. Düğüm seviyesinde örnekleme yapmak, kendinden açıkça daha sağlamdır. Bana göre, temel olarak önyüklemenin ne olması gerektiği ile ilgilidir.
meh

Yanıtlar:


1

Farzedelim ki 10 özellik f1, f2, ..., f9, f10 var, o zaman ağaç düzeyinde kendisinin f1, f3, f4, f8 özelliklerini varsayalım. dikkate almak.

Entropiyi hesaplıyoruz, her düğümde sadece bu 4 özelliği karşılaştırıyoruz ve maksimum entropi veren özelliği alıyoruz. Ağaç öğrenmemizi sadece bu 4 özelliğe kısıtladığımız için bu pek işe yaramaz. Bunun aksine, özelliklerin bazı alt kümelerini aldığımızda diyelim ki ilk düğümde f1, f8, f9 diyelim, entropiyi hesaplıyor ve bunları bu 3 özellik arasında karşılaştırıyoruz ve maksimum değer veren olanı seçiyoruz. Ağacı aynı özelliklerle daha da büyütmek yerine, f4, f7, f2 diyelim ve bu özelliklere dayanarak bölünmeyi başka bir özellik alt kümesi seçtik. Birinci düğümde f8'in ve ikinci düğümde f2'nin seçildiğini varsayalım. Model, ikisi arasındaki ilişkiyi öğrenir.

Bu şekilde model, farklı özellikler arasındaki ilişkiyi daha çeşitlendirilmiş bir şekilde öğrenebilir. Bu yaklaşım, tek bir ağaçta keşfedilecek bir dizi özelliğe sahip olacak ve böylece aralarındaki ilişkiler korunacaktır. Umarım şimdi anladın :)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.