Çekirdeklenmiş SVM'ler için Gradient İniş mümkün mü (eğer öyleyse, insanlar neden Quadratic Programming kullanıyorlar)?

21

İnsanlar neden çekirdek SVM'lerle uğraşırken Kuadratik Programlama tekniklerini (SMO gibi) kullanıyor? Gradyan İnişinin nesi yanlış? Çekirdekle kullanmak imkansız mı yoksa çok mu yavaş (ve neden?).

İşte biraz daha fazla bağlam: SVM'leri biraz daha iyi anlamaya çalışırken, aşağıdaki maliyet işlevini kullanarak doğrusal bir SVM sınıflandırıcısını geliştirmek için Gradient Descent kullandım:

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

Aşağıdaki notasyonları kullanıyorum:

$\mathbf{w}$ , modelin özellik ağırlıklarıdır ve onun bias parametresidir. $b$
$\mathbf{x}^{(i)}$ , eğitim örneğinin özellik vektörüdür. $i^\text{th}$
$y^{(i)}$ , örneği için hedef sınıftır (-1 veya 1) . $i^\text{th}$
$m$ , antrenman örnekleri sayısıdır.
$C$ normalizasyon hiperparametresidir.

Bu denklemden bir (alt) gradyan vektörü ( ve ile ilgili olarak) elde ettim ve Gradient Descent gayet iyi çalıştı. $\mathbf{w}$ $b$

Şimdi doğrusal olmayan sorunların üstesinden gelmek istiyorum. Ben sadece tüm nokta ürünlerin değiştirebilir miyim ile maliyet fonksiyonu içinde çekirdek fonksiyonudur (örneğin Gauss RBF, ), sonra türetmek için hesap kullanın (alt) gradyan vektörü ve Gradient Descent ile devam edin? $\mathbf{u}^t \cdot \mathbf{v}$ $K(\mathbf{u}, \mathbf{v})$ $K$ $K(\mathbf{u}, \mathbf{v}) = e^{-\gamma \|\mathbf{u} - \mathbf{v}\|^2}$

Çok yavaşsa, neden bu? Maliyet işlevi dışbükey değil mi? Yoksa gradyan çok hızlı değiştiği için mi (sürekli Lipschitz değil), algoritma iniş sırasında vadiler arasında zıplamaya devam ediyor, bu yüzden çok yavaş birleşiyor? Fakat o zaman bile, olan Quadratic Programming'in zaman karmaşıklığından nasıl daha kötü olabilir $O({n_\text{samples}}^2 \times n_\text{features})$ ? Yerel bir minima meselesiyse, simüle edilmiş tavlama ile Stochastic GD bunları yenemez mi?

svm kernel-trick gradient-descent

— MiniQuark
kaynak

6

Takım böylece ve , , burada orijinal giriş matrisinin bir eşlemesidir , . Bu, birinin SVM'yi primer formülasyon yoluyla çözmesine izin verir. Kaybınız için gösterimlerinizi kullanarak: $\mathbf w = \phi(\mathbf x)\cdot \mathbf u$ $\mathbf w^t \phi(\mathbf x)=\mathbf u^t \cdot \mathbf K$ $\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$ $\mathbf K = \phi(\mathbf x)^t\phi(\mathbf x)$ $\phi(x)$ $\mathbf x$

J (w, b) = C \sum_{i = 1}^{m} m a x (0, 1 - y^{(i)} (u^{t} \cdot K^{(i)} + b)) + \frac{1}{2} u^{t} \cdot K \cdot u

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{u}^t \cdot \mathbf{K}^{(i)} + b)\right)} + \dfrac{1}{2} \mathbf{u}^t \cdot \mathbf{K} \cdot \mathbf{u}$

$\mathbf{K}$ bir matrisidir ve bir matrisidir. İkisi de sonsuz değil. $m \times m$ $\mathbf{u}$ $m \times 1$

Nitekim, çift çözme işlemi genellikle daha hızlıdır, ancak ilk öncekinin de (çift formülasyonda garanti edilmeyen) yaklaşık çözümler gibi avantajları vardır.

Şimdi, neden ikili bu kadar belirgin? Neden hiç belli değil: [1]

Son on yılda yapılan araştırmaların çoğunun ikili optimizasyonla ilgili olduğu tarihsel nedenler belirsizdir . Bunun nedeni, SVM'lerin ilk olarak zorlu kar marjı formülasyonlarına dahil edildiğine inanıyoruz (Boser ve diğ., 1992). Bununla birlikte, genel olarak, eğitim verileri ayrılabilir olsa bile, yumuşak teminatlı SVM'ler tercih edilmelidir: karar sınırı daha sağlamdır çünkü daha fazla eğitim puanı dikkate alınmaktadır [Chapelle et al., 2000]

Chapelle (2007) hem ilkel hem de çift optimizasyonun zaman karmaşıklığının , en kötü durumun ) olduğunu iddia eder. , ancak kuadratik ve yaklaşık menteşe kayıplarını analiz ettiler, bu nedenle Newton'un yöntemiyle kullanılması farklı olmadığından uygun bir menteşe kaybı olmadı. $\mathcal{O}\left(nn_{sv} + n_{sv}^3\right)$ $\mathcal{O}\left(n^3\right)$

_{[1] Chapelle, O. (2007). Bir destek vektör makinesini ilk elden eğitin. Sinirsel hesaplama, 19 (5), 1155-1178.}

— kundakçı
kaynak

1

+1 Zaman karmaşıklığını da genişletebilir misiniz

— seanv507

@ seanv507 teşekkürler, gerçekten ele almalıydım, yakında bu cevabı güncelleyeceğim.

— Firebug

4

Bir dönüşüm uygulanır ise tüm giriş ağırlık vektörlerine ( ), aşağıdaki maliyet fonksiyonu olsun: $\phi$ $\mathbf{x}^{(i)}$

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

Çekirdek numarası, yerine . Ağırlık Vektörün yana olduğu değil dönüştürülmüş, çekirdek trick üzerinde maliyet fonksiyonunun tatbik edilemez . $\phi(\mathbf{u})^t \cdot \phi(\mathbf{v})$ $K(\mathbf{u}, \mathbf{v})$ $\mathbf{w}$

Yukarıdaki maliyet işlevi , SVM hedefinin ilk biçimine karşılık gelir :

$\underset{\mathbf{w}, b, \mathbf{\zeta}}\min{C \sum\limits_{i=1}^m{\zeta^{(i)}} + \dfrac{1}{2}\mathbf{w}^t \cdot \mathbf{w}}$

tabi ve için $y^{(i)}(\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b) \ge 1 - \zeta^{(i)})$ $\zeta^{(i)} \ge 0$ $i=1, \cdots, m$

İkili formu geçerli:

$\underset{\mathbf{\alpha}}\min{\dfrac{1}{2}\mathbf{\alpha}^t \cdot \mathbf{Q} \cdot \mathbf{\alpha} - \mathbf{1}^t \cdot \mathbf{\alpha}}$

tabi ve için $\mathbf{y}^t \cdot \mathbf{\alpha} = 0$ $0 \le \alpha_i \le C$ $i = 1, 2, \cdots, m$

burada 1s dolu ve bir vektördür bir olduğunu elemanlarla matrisi . $\mathbf{1}$ $\mathbf{Q}$ $m \times m$ $Q_{ij} = y^{(i)} y^{(j)} \phi(\mathbf{x}^{(i)})^t \cdot \phi(\mathbf{x}^{(j)})$

Şimdi çekirdek numaralarını gibi hesaplayarak kullanabiliriz : $Q_{ij}$

$Q_{ij} = y^{(i)} y^{(j)} K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)})$

Bu yüzden çekirdek numarası yalnızca SVM probleminin ikili formunda kullanılabilir (artı lojistik regresyon gibi bazı algoritmalar).

Artık bu sorunu çözmek için kullanıma hazır Quadratic Programlama kitaplıklarını kullanabilir ya da sınırsız bir işlev (çift maliyet işlevi) elde etmek için Lagrangian çarpanlarını kullanabilir, ardından Gradient Descent veya başka bir optimizasyon tekniğini kullanarak minimum değeri arayabilirsiniz. En etkili yaklaşımlardan biri, libsvmkütüphanenin uyguladığı SMO algoritması gibi görünüyor (çekirdeklenmiş SVM için).

— MiniQuark
kaynak

1

Topluluk Wiki cevabınızı neden işaretlediğinizden emin değilim. Bu, sorunuza tamamen geçerli bir cevap gibi görünüyor.

— Sycorax, Reinstate Monica

@GeneralAbrial teşekkür ederiz. Soruyu sormadan önce cevabı bildiğimden şüphelenmemek için cevabımı Topluluk Wiki olarak işaretledim.

— MiniQuark

1

Her zaman doğru olduğunu düşündüğün şeyi yapmalısın, ama kendi soruna sormak ve cevaplamak mükemmeldir.

— Sycorax, Reinstate Monica

Eğer ağırlık vektör dönüşümü olabilir Bekle böylece ve ile ve optimize örnek ağırlıklar ?

w = ϕ (x) \cdot u

$\mathbf w = \phi(x)\cdot \mathbf u$

w^{t} ϕ (x) = u \cdot K

$\mathbf w^t \phi(x)=\mathbf u \cdot \mathbf K$

w^{t} w = u^{t} K u

$\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$

K = ϕ^{t} ϕ

$\mathbf K = \phi^t\phi$

u

$\mathbf u$

— Firebug

2

Yanılıyor olabilirim, ancak nokta ürünleri çift problem haline getirmeden, çekirdekleri çekirdeklerle nasıl değiştirebileceğimizi anlamıyorum.

Çekirdekler bir özellik boşluğuna dolaylı giriş harita olur , kayıp fonksiyonu şu şekilde olur: Gauss çekirdeği uygulanırsa, ifinite olur boyutlar, böylece . $x$ $\phi(x)$
$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$
$\phi(\mathbf{x}^{(i)})$ $\mathbf{w}$

Doğrudan degrade iniş kullanarak sonsuz boyutlu bir vektörün optimize etmek zor görünüyor.

Firebug'un cevabını güncellemek , ilk ürünleri formülasyondaki nokta ürünlerinin çekirdeklerle değiştirmenin bir yolunu sunar.

— dontloo
kaynak