'Makine öğrenmesi' görevim, iyi huylu Internet trafiğini kötü amaçlı trafiğe ayırmak. Gerçek dünya senaryosunda, İnternet trafiğinin çoğu (% 90 veya daha fazla) iyi huyludur. Bu yüzden, modelleriimi de eğitmek için benzer bir veri kurulumu seçmem gerektiğini hissettim. Ancak, modelleri eğitmek için eşit miktarda iyi huylu ve kötü niyetli trafik durumlarını ima eden bir "sınıf dengeleme" veri yaklaşımı kullanan bir araştırma makalesine ya da ikiine (çalışma alanımda) rastladım.
Genel olarak, makine öğrenimi modelleri kuruyorsam, gerçek dünya sorununu temsil eden bir veri setine mi gitmeliyim, yoksa modelleri oluşturmak için daha uygun olan dengeli bir veri kümesi mi kullanmalıyım (çünkü bazı sınıflandırıcılar sınıf dengesizliği ile iyi davranmıyorlarsa, veya bana bilinmeyen diğer nedenlerden dolayı)?
Birisi hem seçimlerin hem de hangisinin seçileceğine karar vermenin lehte ve aleyhinde daha fazla ışık tutabilir mi?