Rastgele Ormanları kullanarak örnekleme yapmak için kaç özellik

Vikipedi sayfası tırnak "İstatistiksel Öğrenme Unsurları" diyor:

Genellikle, özelliklerine ilişkin bir sınıflandırma sorunu için her özellikleri kullanılır. $p$ $\lfloor \sqrt{p}\rfloor$

Bunun oldukça iyi eğitimli bir tahmin olduğunu ve muhtemelen ampirik kanıtlarla doğrulandığını anlıyorum, ancak birinin kare kökü seçmesinin başka nedenleri var mı? Orada meydana gelen istatistiksel bir olay var mı?

Bu bir şekilde hataların varyansını azaltmaya yardımcı olur mu?

Bu, regresyon ve sınıflandırma için aynı mıdır?

— Valentin Calomme
kaynak

Ben orijinal gazetede ) kullanmanızı öneririz düşünüyorum , ama her iki şekilde de fikir aşağıdaki gibidir: $\log_2(N +1$

Rastgele seçilen özelliklerin sayısı genelleme hatasını iki şekilde etkileyebilir: birçok özelliğin seçilmesi tek tek ağaçların gücünü arttırırken, özellik sayısının azaltılması, ormanların bir bütün olarak gücünü artıran ağaçlar arasında daha düşük bir korelasyona yol açar.

İlginç olan, Rastgele Ormanların (pdf) yazarlarının sınıflandırma ve regresyon arasında ampirik bir fark bulmasıdır:

Regresyon ve sınıflandırma arasındaki ilginç bir fark, kullanılan özelliklerin sayısı arttıkça korelasyonun oldukça yavaş artmasıdır.

Bu nedenle, regresyon için genellikle daha büyük değerler veren önerilir . $N/3$ $\sqrt N$

Genel olarak, sınıflandırma problemleri için veya için, ağaçlar arasındaki düşük korelasyonun, genelleme hatasını tek tek ağaçların mukavemetindeki azalmayı dengeleyecek kadar azaltabildiğini göstermesi dışında açık bir gerekçe yoktur . Özellikle, yazarlar bu değiş tokuşun genelleme hatasını azaltabileceği aralığın oldukça büyük olduğunu belirtmektedir: $\sqrt N$ $\log N$

Aradaki aralık genellikle büyüktür. Bu aralıkta, özellik sayısı arttıkça korelasyon artar, ancak PE * (ağaç) azalarak telafi edilir.

(PE * genelleme hatasıdır)

İstatistiksel Öğrenmenin Unsurlarında söyledikleri gibi:

Uygulamada, bu parametreler için en iyi değerler probleme bağlı olacaktır ve ayar parametreleri olarak ele alınmalıdır.

Sorununuzun güvenebileceği bir şey, kategorik değişkenlerin sayısıdır. Kukla değişkenler olarak kodlanmış birçok kategorik değişkeniniz varsa, parametreyi artırmak genellikle mantıklıdır. Yine, Random Forests gazetesinden:

Değişkenlerin çoğu kategorik olduğunda, düşük bir [özellik sayısı] kullanmak düşük korelasyona ve aynı zamanda düşük mukavemete neden olur. İyi test seti doğruluğu sağlamak için yeterli gücü elde etmek için [özellik sayısı] iki-üç katına . $int(log_2M+1)$

— oW_
kaynak

Teşekkürler, bu çok yararlı bir cevap. Gerçekten, her ağacın gücü ile bir bütün olarak ormanın gücü ile ilgili bir şey olduğunu düşünüyordum. Ve gerçekten, çok ilginç, regresyon ve sınıflandırma arasında böyle bir fark var. Orijinal kağıdı bağladığınız için çok teşekkürler. Bu tür kağıtları birçok teknik için toplamaya çalışıyorum.

— Valentin Calomme