Bir metin sınıflandırma problemiyle uğraşmak zorundayım. Bir web tarayıcısı, belirli bir alanın web sayfalarını tarar ve yalnızca bir belirli sınıfa ait olup olmadığını öğrenmek istediğim her web sayfası için. Yani, bu sınıfı Pozitif olarak adlandırırsam , taranan her web sayfası Pozitif sınıfına veya Pozitif Olmayan sınıfına aittir .
Pozitif sınıfı için zaten geniş bir web sayfalarım var . Fakat Olumsuz Olmayan sınıf için mümkün olduğunca temsil edici bir eğitim seti nasıl oluşturulur ? Yani, o sınıf için temel olarak her şeyi kullanabilirim. Kesinlikle Pozitif sınıfa ait olmayan bazı rastgele sayfalar toplayabilir miyim ? Eminim bir metin sınıflandırma algoritması (Ben bir Naive Bayes algoritması kullanmayı tercih ederim) performansı çok pozitif olmayan sınıf için hangi web sayfaları seçtiğiniz bağlıdır .
Öyleyse ne yapmalıyım? Birisi bana tavsiyede bulunabilir mi? Çok teşekkür ederim!