Facebook uygulamamdan bir veritabanım var ve hangi Facebook sitelerini beğendiklerini temel alarak kullanıcıların yaşlarını tahmin etmek için makine öğrenmeyi kullanmaya çalışıyorum.
Veritabanımın üç önemli özelliği var:
Eğitim setimdeki yaş dağılımı (toplamda 12 bin kullanıcı) daha genç kullanıcılara çarpıyor (yani 27 yaşımda 1157, 65 yaşımda 23 kullanıcı var);
birçok sitenin 5'den fazla beğenisi yoktur (FB sitelerini 5'ten az olanları filtreledim).
örneklerden çok daha fazla özellik var.
Öyleyse benim sorularım: Verileri daha ileri analizler için hazırlamak için hangi stratejiyi önerirsiniz? Bir çeşit boyutsallık azaltma mı yapmalıyım? Bu durumda kullanmak için en uygun ML yöntemi hangisidir?
Genel olarak Python kullanıyorum, bu yüzden Python'a özgü ipuçları büyük ölçüde takdir edilecektir.