Laboratuvar değerleri de dahil olmak üzere yüksek boyutlu klinik verileri kullanarak öngörücü bir model geliştirmeye çalışıyorum. Veri alanı 5k örnek ve 200 değişken ile seyrek. Buradaki amaç, değişkenleri bir özellik seçim yöntemi (IG, RF vb.) Kullanarak sıralamak ve yordayıcı bir model geliştirmek için üst sıradaki özellikleri kullanmaktır.
Özellik seçimi Naif Bayes yaklaşımıyla iyi gidiyor olsa da, değişken alanımdaki eksik veriler (NA) nedeniyle öngörülü bir model uygulamada bir sorunla karşılaşıyorum. Eksik veri içeren numuneleri dikkatle işleyebilecek herhangi bir makine öğrenme algoritması var mı?