2 veri setim var, biri tespit etmek istediğim şeyin pozitif örneklerine sahip, diğeri ise etiketlenmemiş örneklere sahip. Hangi yöntemleri kullanabilirim?
Örnek olarak, birkaç yapılandırılmış e-posta özelliğine dayalı olarak spam e-postasını algılamayı anlamak istediğimizi düşünelim. 10000 spam e-postasının bir veri kümesine ve spam olup olmadığını bilmediğimiz bir 100000 e-posta veri kümesine sahibiz.
Bu sorunu nasıl çözebiliriz (etiketlenmemiş verileri manuel olarak etiketlemeden)?
Etiketlenmemiş verilerdeki spam oranı hakkında ek bilgilerimiz varsa ne yapabiliriz (örneğin, 100000 etiketlenmemiş e-postanın% 20-40'ının spam olduğunu tahmin edersek)?