SVM dengesiz veri kümesini ele alıyor mu? Dengesiz veri kümesini işleyen herhangi bir parametre (C veya yanlış sınıflandırma maliyeti gibi) var mı?
SVM dengesiz veri kümesini ele alıyor mu? Dengesiz veri kümesini işleyen herhangi bir parametre (C veya yanlış sınıflandırma maliyeti gibi) var mı?
Yanıtlar:
Dengesiz veri setleri için tipik olarak sınıf başına yanlış sınıflandırma cezasını değiştiririz. Buna sınıf ağırlıklı SVM denir, bu da aşağıdakileri en aza indirir:
burada ve , pozitif / negatif eğitim örneklerini temsil eder. Standart SVM'de sadece tek bir değerine sahibiz, oysa şimdi 2'ye sahibiz. Azınlık sınıfı için yanlış sınıflandırma cezası, çoğunluk sınıfından daha büyük olacak şekilde seçilmiştir.
Bu yaklaşım oldukça erken tanıtıldı, örneğin 1997 tarihli bir makalede bahsedildi:
Edgar Osuna, Robert Freund ve Federico Girosi. Destek Vektör Makineleri: Eğitim ve Uygulamalar. Teknik Rapor AIM-1602, 1997. ( pdf )
Esasen bu azınlık sınıfının aşırı örneklenmesine eşdeğerdir: örneğin, eğer ise, bu, eğitim setine her iki pozitif değeri sonra ile standart bir SVM eğitimi ile tamamen eşdeğerdir .
SVM'ler dengesiz sınıf frekanslı veri kümeleriyle başa çıkabilir. Birçok uygulama, pozitif ve negatif sınıflar için gevşeklik cezası (C) için farklı bir değere sahip olmanızı sağlar (bu, sınıf frekanslarını değiştirmeye asimptotik olarak eşdeğerdir). Sınıf frekanslarının operasyonel kullanımda görmeyi düşündüğünüz bir test setinde genelleme performansını en üst düzeye çıkarmak için bu parametrelerin değerlerini ayarlamanızı tavsiye ederim.
Bu konuda yazılar yazan birçok kişiden biriydim, işte benim , daha yeni / daha iyi bir şey bulabileceğimi göreceğim. Veropoulos, Campbell ve Cristianini'yi (1999) deneyin .