Bir e-postanın spam olup olmadığını öngören bir sınıflandırıcı öğrenmek istediğimi varsayalım. Ve e-postaların yalnızca% 1'inin spam olduğunu varsayalım.
Yapılacak en kolay şey, e-postaların hiçbirinin spam olmadığını söyleyen önemsiz sınıflandırıcıyı öğrenmek olacaktır. Bu sınıflandırıcı bize% 99 doğruluk verecek, ancak ilginç bir şey öğrenmeyecek ve% 100 yanlış negatif oranlara sahip olacaktır.
Bu sorunu çözmek için, insanlar bana "alt örnek" dememi ya da örneklerin% 50'sinin spam ve% 50'sinin spam olmadığı verilerin alt kümesinde öğrendiklerini söyledi.
Ancak bu yaklaşım hakkında endişeliyim, çünkü bir kez bu sınıflandırıcıyı oluşturup gerçek bir e-posta grubuna (50/50 test setinin aksine) kullanmaya başladığımızda, çoğu zaman e-postaların spam olduğunu tahmin edebilir. Gerçekten değilsin. Sırf veri setinde olduğundan çok daha fazla spam görmeye alıştığı için.
Peki bu sorunu nasıl çözeceğiz?
("Örnekleme" veya pozitif eğitim örneklerini birkaç kez tekrarlamak, verilerin% 50'sinin de pozitif eğitim örnekleri olması, benzer sorunlardan muzdarip görünüyor.)