5000 civarında veri setim var. Bu veriler için ilk önce özellik seçimi için Chi Square testini kullandım; Bundan sonra, cevap değişkeni ile anlamlılık ilişkisi gösteren yaklaşık 1500 değişkenim oldu.
Şimdi bunun üzerine lojistik gerilemeye uymalıyım. R için glmulti paket kullanıyorum (glmulti paket vlm için verimli alt küme seçimi sağlar) ancak bir seferde sadece 30 özellik kullanabilir, aksi takdirde veri kümemdeki satır sayısı 20000 civarında olduğu için performansı düşer.
Yukarıdaki sorunları çözmek için başka yaklaşımlar veya teknikler var mı? Yukarıdaki yöntemle gidersem modele uymak çok fazla zaman alacaktır.
sklearn
's LogisticRegression
ve bu benim laptop yaklaşık bir dakika içinde 4000 özellikleri, 20.000 satır sorunu çözer.