Ben orijinal gazetede ) kullanmanızı öneririz düşünüyorum , ama her iki şekilde de fikir aşağıdaki gibidir:log2(N+1
Rastgele seçilen özelliklerin sayısı genelleme hatasını iki şekilde etkileyebilir: birçok özelliğin seçilmesi tek tek ağaçların gücünü arttırırken, özellik sayısının azaltılması, ormanların bir bütün olarak gücünü artıran ağaçlar arasında daha düşük bir korelasyona yol açar.
İlginç olan, Rastgele Ormanların (pdf) yazarlarının sınıflandırma ve regresyon arasında ampirik bir fark bulmasıdır:
Regresyon ve sınıflandırma arasındaki ilginç bir fark, kullanılan özelliklerin sayısı arttıkça korelasyonun oldukça yavaş artmasıdır.
Bu nedenle, regresyon için genellikle daha büyük değerler veren önerilir .N/3N−−√
Genel olarak, sınıflandırma problemleri için veya için, ağaçlar arasındaki düşük korelasyonun, genelleme hatasını tek tek ağaçların mukavemetindeki azalmayı dengeleyecek kadar azaltabildiğini göstermesi dışında açık bir gerekçe yoktur . Özellikle, yazarlar bu değiş tokuşun genelleme hatasını azaltabileceği aralığın oldukça büyük olduğunu belirtmektedir:N−−√logN
Aradaki aralık genellikle büyüktür. Bu aralıkta, özellik sayısı arttıkça korelasyon artar, ancak PE * (ağaç) azalarak telafi edilir.
(PE * genelleme hatasıdır)
İstatistiksel Öğrenmenin Unsurlarında söyledikleri gibi:
Uygulamada, bu parametreler için en iyi değerler probleme bağlı olacaktır ve ayar parametreleri olarak ele alınmalıdır.
Sorununuzun güvenebileceği bir şey, kategorik değişkenlerin sayısıdır. Kukla değişkenler olarak kodlanmış birçok kategorik değişkeniniz varsa, parametreyi artırmak genellikle mantıklıdır. Yine, Random Forests gazetesinden:
Değişkenlerin çoğu kategorik olduğunda, düşük bir [özellik sayısı] kullanmak düşük korelasyona ve aynı zamanda düşük mukavemete neden olur. İyi test seti doğruluğu sağlamak için yeterli gücü elde etmek için [özellik sayısı] iki-üç katına .int(log2M+1)