Destek Vektör Makinesi dengesiz Veri Kümesini ele alıyor mu?


14

SVM dengesiz veri kümesini ele alıyor mu? Dengesiz veri kümesini işleyen herhangi bir parametre (C veya yanlış sınıflandırma maliyeti gibi) var mı?


1
Veri kümesini "dengesiz" yapan nedir?
whuber

1
@whuber, büyük ölçüde değişen sınıf prevalansına sahip bir sınıflandırma verilerine genellikle dengesiz denir.
Marc Claesen

1
@Marc Bu genel olarak doğru olabilir ama belirsiz bir kavram. "Büyük ölçüde değişiyor" ne kadar? Bazı özel durumlar dışında neden önemli olsun ki? Bu soru öneren kişinin amaçlanan anlamla ilgili akıllı tahmininin kabulünden ziyade "dengesiz" olarak ne anlama geldiğini öğrenmenin önemli olduğuna inanıyorum .
whuber

@whuber dengesiz veri setleri makine öğreniminde yaygın bir kavramdır. Örneğin spam tespiti vs. nedeniyle uygulamalar açısından. Belki olasılık yerine yanlış sınıflandırma hatasını hedefleyen algoritmaların üstünlüğü nedeniyle. Bu da hatanın ağırlıklandırılmasını sorunlu hale getirir.
seanv507

2
Açıklama için teşekkürler seanv. Terminolojik problem, "tutamaçların" "uygulanabileceği" anlamına gelmediği, aksine (1) böyle bir azınlıkta olan bir sınıfın tahmin performansının diğer sınıfların varlığı, (2) azınlık sınıfı için doğru tahmin ilgi çekicidir. Bu anlamda "dengesiz veri kümesi" sorunun oldukça eksik bir tanımıdır, ancak terim bir miktar para kazanmış gibi göründüğü için şikayet etmek anlamsız görünmektedir.
whuber

Yanıtlar:


18

Dengesiz veri setleri için tipik olarak sınıf başına yanlış sınıflandırma cezasını değiştiririz. Buna sınıf ağırlıklı SVM denir, bu da aşağıdakileri en aza indirir:

minw,b,ξi=1Nj=1Nαiαjyiyjκ(xi,xj)+CposiPξi+CnegiNξi,s.t.yi(j=1Nαjyjκ(xi,xj)+b)1ξi,i=1Nξi0,i=1N

burada ve , pozitif / negatif eğitim örneklerini temsil eder. Standart SVM'de sadece tek bir değerine sahibiz, oysa şimdi 2'ye sahibiz. Azınlık sınıfı için yanlış sınıflandırma cezası, çoğunluk sınıfından daha büyük olacak şekilde seçilmiştir.PNC

Bu yaklaşım oldukça erken tanıtıldı, örneğin 1997 tarihli bir makalede bahsedildi:

Edgar Osuna, Robert Freund ve Federico Girosi. Destek Vektör Makineleri: Eğitim ve Uygulamalar. Teknik Rapor AIM-1602, 1997. ( pdf )

Esasen bu azınlık sınıfının aşırı örneklenmesine eşdeğerdir: örneğin, eğer ise, bu, eğitim setine her iki pozitif değeri sonra ile standart bir SVM eğitimi ile tamamen eşdeğerdir .Cpos=2CnegC=Cneg


Harika, teşekkürler! Buna ek olarak, lojistik regresyon, navie bayes, karar ağacı bu dengesizlik problemini ele alıyor mu?
RockTheStar

lojistik regresyon kesinlikle yapar, sadece pozitif örüntüler ve negatif örüntüler olasılığını farklı şekilde ağırlıklandırırsınız.
Dikran Marsupial

Lojistik regresyon ve SVM, içsel yollar sağlar. Diğer tüm yöntemler için ezbere bilmiyorum, ancak azınlık sınıfının aşırı örneklenmesi hemen hemen her yöntem için çalışıyor (gerçi matematiksel olarak zarif değil).
Marc Claesen

1
Harika, teşekkürler @Dikran. Marc: Evet, genel olarak basit örnekleme çalışıyor. Ancak, bu duruma bağlıdır. Olan şey, azınlığı örneklendirirken azınlık verilerine "ağırlıklar" eklemenizdir (azınlık noktalarını tekrar tekrar aynı yerlerde çoğaltarak). Bu esas olarak azınlık örneğinin "değerlendirmesinin" iyileştirilmesine yardımcı olur. Bununla birlikte, sınıflandırmanın karar sınırı daha sonra oldukça gerginleşecektir (yeterince genel değil), yani aşırı uyuşma meydana gelebilir). Bu nedenle, SMOTE gibi bazı olasılıksal örnekleme tekniklerini dikkate almak zorunda kalabiliriz.
RockTheStar

10

SVM'ler dengesiz sınıf frekanslı veri kümeleriyle başa çıkabilir. Birçok uygulama, pozitif ve negatif sınıflar için gevşeklik cezası (C) için farklı bir değere sahip olmanızı sağlar (bu, sınıf frekanslarını değiştirmeye asimptotik olarak eşdeğerdir). Sınıf frekanslarının operasyonel kullanımda görmeyi düşündüğünüz bir test setinde genelleme performansını en üst düzeye çıkarmak için bu parametrelerin değerlerini ayarlamanızı tavsiye ederim.

Bu konuda yazılar yazan birçok kişiden biriydim, işte benim , daha yeni / daha iyi bir şey bulabileceğimi göreceğim. Veropoulos, Campbell ve Cristianini'yi (1999) deneyin .


Dikran neden sadece asimptotik olarak eşdeğerdir ... elbette farklı sınıf hatalarını farklı bir şekilde tartmakla eşdeğerdir?
seanv507

Sınıf hatalarının ağırlıklandırılmasına tam olarak eşdeğerdir, ancak bu, verilerin yeniden örneklenmesi ile aynı şey değildir (bir başlangıç ​​için ağırlıklar sürekli olarak değişkendir, ancak veriler ayrıktır). Asimptotik beklenti sonuçlarından biridir (çoğu durumda özellikle yararlı görünmemektedir).
Dikran Marsupial
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.