Lojistik Regresyon için bir ikili sınıf problemi ile her numune için 330 örnek ve 27 özelliğe sahip bir veri setim var.
"On ise kural" a göre her özelliğin dahil edilmesi için en az 10 olaya ihtiyacım var. Yine de dengesiz bir veri setim var,% 20 pozitif sınıf ve% 80 negatif sınıf.
Bu bana sadece 70 etkinlik veriyor ve Lojistik modeline yaklaşık olarak sadece 7/8 özellik eklenmesini sağlıyor.
Tüm özellikleri öngörücü olarak değerlendirmek istiyorum, herhangi bir özelliği el ile seçmek istemiyorum.
Peki ne önerirsiniz? Tüm 7 özellik kombinasyonunu yapmalı mıyım? Her bir özelliği tek başına bir ilişkilendirme modeliyle değerlendirmeli ve daha sonra son model için yalnızca en iyilerini seçmeli miyim?
Ayrıca kategorik ve sürekli özelliklerin işlenmesini merak ediyorum, bunları karıştırabilir miyim? Kategorik bir [0-1] ve sürekli bir [0-100] varsa, normalleştirmeli miyim?
Şu anda Python ile çalışıyorum.
Yardımın için çok teşekkürler!