Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye içindir. Bu özellik ithalatlarını bir araya getirmenin iyi bir yolu nedir?
Bir özelliğin tüm düzeyleri için toplamı veya ortalama önemi almayı düşündüm (muhtemelen eski özellikler daha fazla seviyeye sahip özelliklere yöneltilecektir). Bu konuda referans var mı?
Özellik sayısını azaltmak için başka ne yapılabilir? Kement grubunun farkındayım, scikit-öğrenmesi için kullanımı kolay bir şey bulamadım.