SVM'deki önyargı terimi neden özellik vektöründe fazladan bir boyut yerine ayrı ayrı tahmin ediliyor?


11

SVM'deki optimal hiper düzlem şu şekilde tanımlanır:

wx+b=0,

burada b eşiği temsil eder. Bazı haritalama varsa φ biraz boşluk giriş alanını eşleyen Z , biz uzay içinde SVM tanımlayabilirsiniz Z Optimum hiperplane olacak:

wφ(x)+b=0.

Ancak, her zaman eşleştirme tanımlayabilir φ böylece φ0(x)=1 , x , ve daha sonra en uygun hiperplane olarak tanımlanacak

wφ(x)=0.

Sorular:

  1. Neden birçok kağıtları kullanmak wφ(x)+b=0 zaten haritalama olduğunda φ ve tahmin parametrelerini w ve THESHOLD b separatelly?

  2. s. t. y n w ϕ ( x n )1,n w ϕ 0 ( x )=1, x

    minw||w||2
    s.t. ynwφ(xn)1,n
    wφ0(x)=1,x
  3. 2. sorudan SVM tanımı mümkünse, w=Σnynαnφ(xn) olacak ve eşik basitçe b=w0 olacak ve ayrı ayrı ele almayacağız. Bu nedenle , bazı destek vektörleri x_n'den b'yi tahmin etmek için asla b = t_n- \ mathbf w \ cdot \ phi (\ mathbf x_n) formülü kullanmayız . Sağ?b=tn-wφ(xn)bxn


Yanıtlar:


12

Önyargı neden önemlidir?

Önyargı terimi gerçekten de SVM'de özel bir parametredir. Onsuz, sınıflandırıcı her zaman başlangıç ​​noktasından geçer. Bu nedenle, önyargı teriminiz olmadığı sürece, başlangıç ​​noktasından geçmezse SVM size maksimum kenar boşluğu ile ayırma köprüsü vermez.b

Önyargı sorununun görselleştirilmesi aşağıdadır. Önyargı terimiyle (olmadan) eğitilmiş bir SVM solda (sağda) gösterilir. Her iki SVM de aynı veriler üzerinde eğitilmiş olsa da , çok farklı görünüyorlar.

resim açıklamasını buraya girin

Önyargı neden ayrı ayrı ele alınmalıdır?

As Ben DAI işaret, önyargı terimi çünkü regülarizasyon ayrı ayrı ele alınmalıdır. SVM, (veya olan kenar boşluğunu en üst düzeye çıkarır .b1||w||22||w||2

Kenar boşluğunu en üst düzeye çıkarmak, değerini en aza indirmekle aynıdır . Buna düzenlileştirme terimi de denir ve sınıflandırıcının karmaşıklığının bir ölçüsü olarak yorumlanabilir. Ancak, önyargı terimini düzenlemek istemezsiniz, çünkü önyargı tüm veri noktaları için sınıflandırma puanlarını aynı miktarda yukarı veya aşağı kaydırır . Özellikle, sapma sınıflandırıcının şeklini veya kenar boşluğu boyutunu değiştirmez. Bu nedenle, ...||w||2

SVM'deki önyargı terimi düzenli DEĞİLDİR.

Bununla birlikte, pratikte, özel bir durum olarak uğraşmak yerine önyargıyı unsur vektörüne itmek daha kolaydır.

Not: sapma unsur fonksiyonuna , yan etkilerini en aza indirmek için unsur vektörünün bu boyutunu büyük bir sayıya sabitlemek en iyisidir, örn. .φ0(x)=10


Meraktan arsalar oluşturmak için hangi programı kullandınız?
d0rmLife

1
@ d0rmLife: Bu sadece MS PowerPoint kullanarak yaptığım bir çizgi!
Sobi


1

Bazen, insanlar SVM'deki kesmeyi atlarlar, ancak bence sebebi, atlamayı atlamak için cezayı cezalandırabiliriz. yani

x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Ancak, kesişmeyi ağırlıklara koyarsak, nesnel işlev orijinal olanla biraz farklı olacaktır. Bu yüzden "cezalandır" diyoruz.


bminw,b||w||2minw,b||w||2+b2

Σαntn=0αn0

@Petar Bildiğim bir şey, bu modelin Dual formunu düşündüğümüzde güçlü hale gelmesidir. Bu teknik doğrusal kısıtlamayı ortadan kaldıracaktır.
Ben Dai

@Petar Daha kolay bir alanımız olduğu için ikili optimizasyonun daha zor olacağını düşünmüyorum.
Ben Dai

@Petar Spesifik algoritma için daha zor olabilir. Ancak, matematiksel olarak, kutu etki alanı belki daha iyi düşünüyorum
Ben Dai

0

xθb

|θTx+b|||θ||
θbθ


Bir noktanın bir hiper düzlemle olan mesafesinin doğru olduğunu ve açıklamanın ilginç görünse bile, bu formül ile SVM eğitimi arasında bir korelasyon görmüyorum. Bu formülün eğitim sırasında nasıl kullanıldığını daha iyi açıklayabilir veya ek bağlantı sağlayabilir misiniz?
Dejan

θTx+b||θ||{-1,1}y(θTx+b)||θ||1||θ||

@Dejan, Andrew Ng'in
charlieh_7
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.