Sadelik adına, spam / spam olmayan e-postaların klasik örneği üzerinde çalışıyorum diyelim.
20.000 e-posta setim var. Bunlardan 2000'in spam olduğunu biliyorum ama spam olmayan e-postalardan hiçbir örneğim yok. Kalan 18000’in spam olup olmadığını tahmin etmek istiyorum. İdeal olarak, aradığım sonuç, e-postanın spam olma olasılığı (veya bir p değeri).
Bu durumda mantıklı bir tahmin yapmak için hangi algoritmaları kullanabilirim?
Şu anda, e-postalarımın bilinen bir spam e-postasıyla ne kadar benzer olduğunu söyleyen bir mesafeye dayalı bir yöntem düşünüyorum. Hangi seçeneklere sahibim?
Daha genel olarak, denetimli bir öğrenme yöntemi kullanabilir miyim, yoksa bunu yapmak için eğitim setimde mutlaka olumsuz vakalara ihtiyacım var mı? Denetlenmeyen öğrenme yaklaşımlarıyla sınırlı mıyım? Yarı denetimli yöntemlerden ne haber?