Rasgele ormanın ölçeklendirilmesi veya ortalanması için giriş değişkenlerine ihtiyacı var mı?


17

Giriş değişkenlerimin farklı boyutları var. Bazı değişkenler ondalık, bazıları yüzlerce. Rasgele orman kullanırken verileri boyutsuz hale getirmek için bu giriş değişkenlerini ortalamak (ortalama çıkarmak) veya ölçeklendirmek (standart sapmaya göre bölmek) gerekli midir?

Yanıtlar:


30

Hayır.

Rastgele Ormanlar, ağaç bölümleme algoritmalarına dayanır.

Bu nedenle, genel regresyon stratejilerinde bağımsız değişkenlerin birimlerine bağlı olan bir katsayıya benzer bir analog yoktur. Bunun yerine, bir bölümleme kuralları koleksiyonu, temel olarak bir eşik değeri verilen bir karar elde edilir ve bu ölçeklendirme ile değişmemelidir. Başka bir deyişle, ağaçlar sadece özelliklerde rütbeleri görür.

Temel olarak, verilerinizin herhangi bir monotonik dönüşümü ormanı hiç değiştirmemelidir (en yaygın uygulamalarda).

Ayrıca, karar ağaçları genellikle diğer algoritmalarda yakınsama ve hassasiyeti bozan sayısal kararsızlıklara karşı dayanıklıdır.


0

Genel olarak Firebug ile hemfikirim, ancak tahminci önem puanlarıyla ilgileniyorsanız değişkenlerinizi standartlaştırmanın bir değeri olabilir. RF, verileri bölümlemek için daha fazla fırsat olduğu için oldukça değişken sürekli öngörücülerden yana olacaktır. Bununla birlikte, bu konuyla başa çıkmanın daha iyi bir yolu, bu önyargıya karşı daha sağlam olan belirli yaklaşımları (yani koşullu ormanları kullanarak değiştirmeden örnekleme) kullanmaktır. Bkz. Https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Siteye hoş geldiniz. Soru-cevap şeklinde yüksek kaliteli istatistiki bilgilerin kalıcı bir havuzunu oluşturmaya çalışıyoruz. Bu nedenle, linkrot nedeniyle sadece bağlantı cevaplarına karşı dikkatliyiz. Öldüğünde, bağlantıya tam bir alıntı ve bilgi özeti gönderebilir misiniz?
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.