Görünüşe göre n
seviyelere sahip olabileceğinizi anlıyorsunuz n-1
, çünkü lineer regresyondan farklı olarak mükemmel lineerlik hakkında endişelenmenize gerek yok.
(Bunu R perspektifinden geliyorum, ancak Python'da aynı olduğunu varsayıyorum.) Bu, 1) hangi paketi kullandığınıza ve 2) kaç faktör seviyesine sahip olduğunuz gibi birkaç şeye bağlıdır.
1) R randomForest
paketini kullanıyorsanız , <33 faktör seviyeniz varsa, devam edip isterseniz bir özellikte bırakabilirsiniz. Çünkü R'nin rastgele orman uygulamasında, bölünmenin bir tarafında hangi faktör seviyelerinin olması gerektiğini ve diğer tarafında (örneğin, 5 seviyeniz sol tarafta gruplandırılabilir ve 7 gruplandırılabilir) kontrol edilir. birlikte sağda). Kategorik özelliği n
aptallara ayırırsanız, algoritmanın elinde bu seçenek olmaz.
Açıkçası, kullandığınız özellikle paket kategorik özellikleri işleyemiyorsa, sadece n
kukla değişkenler oluşturmanız gerekir .
2) Yukarıda bahsettiğim gibi, R'nin rastgele orman uygulaması sadece 32 faktör seviyesini işleyebilir - bundan daha fazlasına sahipseniz, faktörlerinizi daha küçük alt kümelere bölmeniz veya her seviye için bir kukla değişken oluşturmanız gerekir.
randomForest
otomatik olarak kodlandığı R'de modellemezsem,n
eşzamanlılık RF için bir sorun olmadığı için aptallarla gitmeliyim ?