11

SVM'deki optimal hiper düzlem şu şekilde tanımlanır:

w \cdot x + b = 0,

$\mathbf w \cdot \mathbf x+b=0,$

burada $b$ eşiği temsil eder. Bazı haritalama varsa $\mathbf \phi$ biraz boşluk giriş alanını eşleyen $Z$ , biz uzay içinde SVM tanımlayabilirsiniz $Z$ Optimum hiperplane olacak:

w \cdot φ (x) + b = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0.$

Ancak, her zaman eşleştirme tanımlayabilir $\phi$ böylece $\phi_0(\mathbf x)=1$ , $\forall \mathbf x$ , ve daha sonra en uygun hiperplane olarak tanımlanacak

w \cdot φ (x) = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)=0.$

Sorular:

Neden birçok kağıtları kullanmak $\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0$ zaten haritalama olduğunda $\phi$ ve tahmin parametrelerini $\mathbf w$ ve THESHOLD $b$ separatelly?
$min_{w} | | w | |^{2}$ $\min_{\mathbf w} ||\mathbf w ||^2$ $s . t . y_{n} w \cdot φ (x_{n}) \geq 1, \forall n$ $s.t. \ y_n \mathbf w \cdot \mathbf \phi(\mathbf x_n) \geq 1, \forall n$ $\mathbf w$ $\phi_0(\mathbf x)=1, \forall\mathbf x$
2. sorudan SVM tanımı mümkünse, $\mathbf w = \sum_{n} y_n\alpha_n \phi(\mathbf x_n)$ olacak ve eşik basitçe $b=w_0$ olacak ve ayrı ayrı ele almayacağız. Bu nedenle , bazı destek vektörleri tahmin etmek için asla formülü kullanmayız . Sağ? $b=t_n-\mathbf w\cdot \phi(\mathbf x_n)$ $b$ $x_n$

svm threshold

— Dejan
kaynak

İlgili: Regresyonda yanlılık (kesişme) terimini azaltmamanın nedeni .

— amip

12

Önyargı neden önemlidir?

Önyargı terimi gerçekten de SVM'de özel bir parametredir. Onsuz, sınıflandırıcı her zaman başlangıç noktasından geçer. Bu nedenle, önyargı teriminiz olmadığı sürece, başlangıç noktasından geçmezse SVM size maksimum kenar boşluğu ile ayırma köprüsü vermez. $b$

Önyargı sorununun görselleştirilmesi aşağıdadır. Önyargı terimiyle (olmadan) eğitilmiş bir SVM solda (sağda) gösterilir. Her iki SVM de aynı veriler üzerinde eğitilmiş olsa da , çok farklı görünüyorlar.

Önyargı neden ayrı ayrı ele alınmalıdır?

As Ben DAI işaret, önyargı terimi çünkü regülarizasyon ayrı ayrı ele alınmalıdır. SVM, (veya olan kenar boşluğunu en üst düzeye çıkarır . $b$ $\frac{1}{||w||^2}$ $\frac{2}{||w||^2}$

Kenar boşluğunu en üst düzeye çıkarmak, değerini en aza indirmekle aynıdır . Buna düzenlileştirme terimi de denir ve sınıflandırıcının karmaşıklığının bir ölçüsü olarak yorumlanabilir. Ancak, önyargı terimini düzenlemek istemezsiniz, çünkü önyargı tüm veri noktaları için sınıflandırma puanlarını aynı miktarda yukarı veya aşağı kaydırır . Özellikle, sapma sınıflandırıcının şeklini veya kenar boşluğu boyutunu değiştirmez. Bu nedenle, ... $||w||^2$

SVM'deki önyargı terimi düzenli DEĞİLDİR.

Bununla birlikte, pratikte, özel bir durum olarak uğraşmak yerine önyargıyı unsur vektörüne itmek daha kolaydır.

Not: sapma unsur fonksiyonuna , yan etkilerini en aza indirmek için unsur vektörünün bu boyutunu büyük bir sayıya sabitlemek en iyisidir, örn. . $\phi_0(x) = 10$

— SOBI
kaynak

Meraktan arsalar oluşturmak için hangi programı kullandınız?

— d0rmLife

1

@ d0rmLife: Bu sadece MS PowerPoint kullanarak yaptığım bir çizgi!

— Sobi

+1. İlgili: Regresyonda yanlılık (kesişme) terimini azaltmamanın nedeni .

— amip

1

Bazen, insanlar SVM'deki kesmeyi atlarlar, ancak bence sebebi, atlamayı atlamak için cezayı cezalandırabiliriz. yani

$\mathbf{\hat{x}} = (\mathbf{1}, \mathbf{x})$ $\mathbf{\hat{w}} = (w_{0}, \mathbf{w}^{T})^{T}$

x w + b = \hat{x} \hat{w}

$\mathbf{x} ~ \mathbf{w} + b = \mathbf{\hat{x}} ~ \mathbf{\hat{w}}$

Ancak, kesişmeyi ağırlıklara koyarsak, nesnel işlev orijinal olanla biraz farklı olacaktır. Bu yüzden "cezalandır" diyoruz.

— Ben Dai
kaynak

b

$b$

min_{w, b} | | w | |^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2$

min_{w, b} | | w | |^{2} + b^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2 + b^2$

\sum α_{n} t_{n} = 0

$\sum \alpha_n t_n=0$

α_{n} \geq 0

$\alpha_n\geq 0$

@Petar Bildiğim bir şey, bu modelin Dual formunu düşündüğümüzde güçlü hale gelmesidir. Bu teknik doğrusal kısıtlamayı ortadan kaldıracaktır.

— Ben Dai

@Petar Daha kolay bir alanımız olduğu için ikili optimizasyonun daha zor olacağını düşünmüyorum.

— Ben Dai

@Petar Spesifik algoritma için daha zor olabilir. Ancak, matematiksel olarak, kutu etki alanı belki daha iyi düşünüyorum

— Ben Dai

0

$x$ $\theta$ $b$

\frac{| θ^{T} x + b |}{| | θ | |}

$\frac{|\theta^T x + b|}{||\theta||}$

θ

$\theta$

b

$b$

θ

$\theta$

— charlieh_7
kaynak

Bir noktanın bir hiper düzlemle olan mesafesinin doğru olduğunu ve açıklamanın ilginç görünse bile, bu formül ile SVM eğitimi arasında bir korelasyon görmüyorum. Bu formülün eğitim sırasında nasıl kullanıldığını daha iyi açıklayabilir veya ek bağlantı sağlayabilir misiniz?

— Dejan

\frac{θ^{T} x + b}{| | θ | |}

$\frac{\theta^T x + b}{||\theta||}$

{- 1, 1}

$\{-1, 1\}$

\frac{y (θ^{T} x + b)}{| | θ | |}

$\frac{y(\theta^T x + b)}{||\theta||}$

\frac{1}{| | θ | |}

$\frac{1}{||\theta||}$

@Dejan, Andrew Ng'in

— charlieh_7

SVM'deki önyargı terimi neden özellik vektöründe fazladan bir boyut yerine ayrı ayrı tahmin ediliyor?

Önyargı neden önemlidir?

Önyargı neden ayrı ayrı ele alınmalıdır?