Rasgele orman sonuçlarım neden bu kadar değişken?

Ben rastgele ormanın 2 grup arasında örnekleri sınıflandırma yeteneğini test etmeye çalışıyorum; Sınıflandırma için kullanılan 54 örnek ve değişen sayıda değişken vardır.

50.000 ağaç kullandığımda bile çanta dışı (OOB) tahminlerin neden birbirinden% 5 kadar değişebileceğini merak ediyordum. Bu önyüklemenin yardımcı olabileceği bir şey mi?

machine-learning random-forest

— Sethzard
kaynak

Birkaç örnek almalısınız. 50 bin ağaç bu kadar az örnekle bir anlam ifade etmiyor. Varyasyon büyük olasılıkla sadece bir örnek, çalışmalar arasında yanlış sınıflandırılmaktadır.

— ThiS

@ThiS Ağaç sayısını arttırmanın elde ettiğim varyans miktarını azaltacağını düşündüm. Etkili sıfıra indirmenin veya hangisinin en doğru olduğunu bilmenin bir yolu var mı?

— Sethzard

OOB varyansının iki kaynağı vardır. Birincisi, prosedürün kendisinin rastgele olması; bu ağaç sayısını artırarak azaltılabilir.

Diğer varyans kaynağı, sınırlı veriye sahip olmanın ve karmaşık bir dünyada yaşamanın indirgenemez kusurudur. Ağaç sayısını artırmak bunu düzeltemez.

Ayrıca, bazen sorunu çözmek için yeterli veri yoktur. Örneğin, iki örneğin karşıt etiketlere ancak özdeş özellik değerlerine sahip olduğunu düşünün. Bu örneklerden biri her zaman yanlış sınıflandırılacaktır. (Bu aşırı bir örnektir, ancak bazı sorunların nasıl düzeltilemez olduğunu gösterir. Bir vektöre küçük bir pertürbasyon düşünerek biraz rahatlatabiliriz; şimdi genellikle ikiziyle aynı olarak sınıflandırılır, ancak her zaman değil.) Bu sorunu çözmek için , iki noktayı daha da ayırt etmek için ek ölçümler toplamanız gerekir.

Bununla birlikte, ağaç sayısını artırmak, gibi bir şeyin tahmininin varyansını azaltabilir . Merkezi limit teoreminin sonuçlarını düşünün: örneklem büyüklüğünü arttırmak, bir istatistiğin ortalama gibi varyansını azaltabilir, ancak ortadan kaldırmaz. Rastgele orman tahminleri, tüm ağaçların tahminlerinin ortalama bir değeridir ve bu tahminlerin kendileri rastgele değişkenlerdir (önyükleme ve özelliklerin rastgele alt kümelenmesi nedeniyle; her ikisi de bağımsız olarak gerçekleşir, bu nedenle oylar da doğrudur). CLT, normal bir dağılıma yaklaşır ; burada gerçek ortalama öngörüdür ve $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ ağaçların oylarının varyansıdır. (Oylar 0 veya 1 değerlerini alır, bu nedenle oyların ortalaması sonlu bir değişime sahiptir.) Mesele şu ki , ağaç sayısının iki katına çıkarılması varyansını yarıya indirecek, ancak sıfır. $\bar{x}$ ( hariç , ancak burada böyle olmadığını biliyoruz.) $\sigma^2=0$

İndirgenemez varyans önyükleme ile düzeltilemez. Dahası, rastgele ormanlar zaten önyüklenmiştir; adında "rastgele" olmasının nedeninin bir parçası. (Diğer neden, her bir bölmede rastgele bir özellik alt kümesinin seçilmesidir.)

— Sycorax: Monica'yı eski durumuna getirdi
kaynak