Random Forest sınıflandırıcısı için en uygun parametreler ne olmalıdır?


14

Şu anda bir ikili sınıflandırma sorunu için MATLAB RF araç kutusu kullanıyorum

Veri Kümesi: 50000 örnek ve 250'den fazla özellik

Peki, ağaçların büyümesi için her bölünmedeki ağaç sayısı ve rastgele seçilen özellik ne olmalıdır? başka bir parametre sonuçları büyük ölçüde etkileyebilir mi?

Yanıtlar:


8

Ağaçların çok sayıda seç, almak, ben internette okudum kadarıyla 100'ü söylemek rasgele seçilen özellikler. Bununla birlikte, orijinal makalede Breiman, en yakın tamsayıyı kullandı .250logMlog2

Çapraz doğrulamanın genellikle en uygun parametreleri bulmanın anahtarı olduğunu söyleyebilirim, ancak rastgele ormanlar hakkında yeterince bilgim yok.


Breiman özelliklerini kullandı. Buraya bir yorum bırakıyorum, çünkü bağlantınız çalışmıyor :)1+log2M
Antoine

Teşekkürler, bağlantıyı güncelledim. Şimdi, doğrudan Berkeley'e.
Wok

12

Ağaç sayısı ne kadar büyükse o kadar iyidir. Bu parametreyle neredeyse üstesinden gelemezsiniz, ancak elbette üst sınır RF'ye harcamak istediğiniz hesaplama süresine bağlıdır.
İyi bir fikir ilk önce uzun bir orman yapmak ve sonra (umarım MATLAB uygulamasında kullanılabilir) OOB doğruluğu yakınsama bakın.

Denenmiş özelliklerin sayısı varsayılan, tüm özelliklerin kare köküdür, ancak genellikle orman bu parametrenin değeri konusunda çok hassas değildir - aslında nadiren optimize edilir, çünkü özellikle RF'nin stokastik yönü daha büyük varyasyonlar getirebilir.


7

Ağaç sayısı ne kadar büyükse o kadar iyidir: kararlaştırıldı.

Denenen özelliklerin sayısı değişecektir. Zaten bilginin yayıldığı ya da yayılmadığı konusunda bir önseziniz varsa. Bilgiler birçok özellik tarafından paylaşılırsa, daha iyi sonuçlar bu parametrenin daha küçük değeri ile ortaya çıkar. Öte yandan, bilgileri yalnızca birkaç özellik taşıyorsa, daha büyük değerler kullanmalısınız. Başka bir deyişle, birçok ilgili değişkenle: daha küçük değerler daha iyidir ve birçok alakasız değişkenle: daha büyük değerler daha iyidir.


1
Denenmiş özelliklerin sayısı hakkındaki iddianız mantıklı olsa da, bunun için bir alıntı var mı?
James Owers

Bu tezi okumanızı tavsiye ederim: github.com/glouppe/phd-thesis ve bunun yanı sıra: orbi.ulg.ac.be/handle/2268/25737
0asa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.