Görünüşe göre nseviyelere sahip olabileceğinizi anlıyorsunuz n-1, çünkü lineer regresyondan farklı olarak mükemmel lineerlik hakkında endişelenmenize gerek yok.
(Bunu R perspektifinden geliyorum, ancak Python'da aynı olduğunu varsayıyorum.) Bu, 1) hangi paketi kullandığınıza ve 2) kaç faktör seviyesine sahip olduğunuz gibi birkaç şeye bağlıdır.
1) R randomForestpaketini kullanıyorsanız , <33 faktör seviyeniz varsa, devam edip isterseniz bir özellikte bırakabilirsiniz. Çünkü R'nin rastgele orman uygulamasında, bölünmenin bir tarafında hangi faktör seviyelerinin olması gerektiğini ve diğer tarafında (örneğin, 5 seviyeniz sol tarafta gruplandırılabilir ve 7 gruplandırılabilir) kontrol edilir. birlikte sağda). Kategorik özelliği naptallara ayırırsanız, algoritmanın elinde bu seçenek olmaz.
Açıkçası, kullandığınız özellikle paket kategorik özellikleri işleyemiyorsa, sadece nkukla değişkenler oluşturmanız gerekir .
2) Yukarıda bahsettiğim gibi, R'nin rastgele orman uygulaması sadece 32 faktör seviyesini işleyebilir - bundan daha fazlasına sahipseniz, faktörlerinizi daha küçük alt kümelere bölmeniz veya her seviye için bir kukla değişken oluşturmanız gerekir.
randomForestotomatik olarak kodlandığı R'de modellemezsem,neşzamanlılık RF için bir sorun olmadığı için aptallarla gitmeliyim ?