Ölçeklendirme doğrusal SVM sınıflandırması için neden önemlidir?


15

Doğrusal SVM sınıflandırmasını gerçekleştirirken, örneğin ortalamanın çıkarılması ve standart sapmaya bölünmesi ve daha sonra test verilerinin, egzersiz verilerinin ortalama ve standart sapması ile ölçeklendirilmesi yoluyla eğitim verilerinin normalleştirilmesi genellikle yararlıdır. Bu işlem neden sınıflandırma performansını önemli ölçüde değiştirir?



Teşekkür ederim, juampa! Bununla birlikte, test setinin neden kendi yerine eğitim setinin ortalaması ve std ile ölçeklendirilmesi gerektiği konusunda hala net değilim? Bazı durumlarda, iki örnek sınıfı test setinde iyi dengelendiğinde daha sonra euqlly iyi veya daha iyi performans gösterir.
Qinghua

1
çünkü o zaman tutarlı olmazsınız. Farklı veriler üzerinde test yapıyorsunuz. Örnekleri bir Gauss N (mu, sigma) 'dan çizdiğinizi düşünün. N (0,1) ile eğitim
yaptınız

Yanıtlar:


12

Bir örnekle daha açık hale getirilebileceğini düşünüyorum. Diyelim ki iki giriş vektörünüz var: X1 ve X2. ve diyelim ki X1'in aralığı (0.1 ila 0.8) ve X2'nin aralığı (3000 ila 50000). Şimdi SVM sınıflandırıcınız X1-X2 düzleminde uzanan doğrusal bir sınır olacaktır. Benim iddiam, doğrusal karar sınırının eğiminin X1 ve X2 aralığına değil, noktaların dağılımına bağlı olması gerektiğidir.

Şimdi nokta (0.1, 4000) ve (0.8, 4000) üzerinde bir tahmin yapalım. Fonksiyonun değerinde neredeyse hiç fark olmayacak, bu nedenle SVM'yi daha az doğru hale getirecektir, çünkü X1 yönündeki noktalara daha az duyarlı olacaktır.


7

SVM, ayırma düzlemi ve destek vektörleri arasındaki mesafeyi en üst düzeye çıkarmaya çalışır. Bir özellik (yani bu alandaki bir boyut) çok büyük değerlere sahipse, mesafeyi hesaplarken diğer özelliklere hakim olacaktır. Tüm özellikleri yeniden ölçeklendirirseniz (örneğin, [0, 1] 'e), bunların hepsi mesafe metriği üzerinde aynı etkiye sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.