SVM'de genelleme sınırları

Destek Vektör Makinelerinin genelleme kabiliyeti için teorik sonuçlarla ilgileniyorum, örneğin sınıflandırma hatasının olasılığı ve bu makinelerin Vapnik-Chervonenkis (VC) boyutu ile ilgili sınırlar. Bununla birlikte, literatürde okumak, benzer tekrar eden bazı sonuçların, özellikle de belirli bir sınırın tutulması için gerekli teknik koşullar ile ilgili olarak yazardan yazara biraz farklılık gösterdiği izlenimini edindim.

Aşağıda, SVM sorununun yapısını ve tekrar tekrar bir şekilde bulduğum ana genelleme sonuçlarının 3. durumunu hatırlayacağım fuar boyunca 3 ana referans veriyorum. $-$

Sorun ayarı :

Biz (IID) birbirinden bağımsız ve özdeş dağıtılmış çift veri örneği olduğunu varsayalım tüm , ve . , ve tanımlanan ayırma köprüsü arasında minimum kenar boşluğunu en üst düzeye çıkaran bir destek vektör makinesi (SVM) oluşturuyoruz ve ve tanımlanan iki sınıfı ayırmak için arasındaki en yakın nokta . SVM'nin gevşek değişkenler ekleyerek yumuşak bir marj ile bazı hataları kabul etmesine izin veriyoruz $(x_i,y_i)_{1\leq i\leq n}$ $i$ $x_i \in \mathbb{R}^p$ $y_i \in \{-1,1\}$ $m^*$ $\{x : w \cdot x + b = 0\}$ $w \in \mathbb{R}^p$ $b \in \mathbb{R}$ $x_1,\cdots,x_n$ $y = -1$ $y = 1$ $\xi_1,\cdots,\xi_n$ $-$ ancak gösterimsel basitlik için çekirdek olasılığını göz ardı ediyoruz. ve çözüm parametreleri aşağıdaki dışbükey kuadratik optimizasyon programı çözülerek elde edilir: $w^*$ $b^*$

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

Bu makinenin genelleme kabiliyeti ile ilgileniyoruz.

Vapnik-Chervonenkis boyut $VC$ :

İlk sonuç, ayrı bir hiper düzlemin VC boyutunu sınırladığı (Vapnik, 2000), teorem 5.1. İzin vermek, sahibiz: $R = \max_{x_i} \|x_i\|$

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

Bu sonuç yine (Burges, 1998), teorem 6'da bulunabilir. Ancak, Burges teoremi, boşluk toleranslı sınıflandırıcılar olarak bilinen özel bir sınıflandırıcılar kategorisi tanımlaması gerektiğinden, Vapnik'in aynı sonucundan daha kısıtlayıcı görünmektedir. SVM'nin ait olduğu , teoremi belirtmek için. $-$ $-$

Hata olasılığı sınırları :

(Vapnik, 2000) 'de, sayfa 139'daki teorem 5.2, SVM genelleme yeteneği üzerinde aşağıdaki sınırı vermektedir:

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

burada , destek vektörlerinin sayısıdır. Bu sonuçlar tekrar (Burges, 1998), denklemler (86) ve (93) 'te tekrar bulunmuştur. Fakat yine Burges, Vapnik'ten farklı teoremlerde minimum fonksiyon içindeki bileşenleri farklı koşullarla ayırdığı için farklı görünüyor. $n_{SV}$

(Vapnik, 2000), s.133'te ortaya çıkan bir diğer sonuç şudur. Tüm , ve ve izin vererek , şu şekilde tanımlarız : $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

Ayrıca SVM tarafından yanlış sınıflandırılmış eğitim örneği sayısı olarak tanımladık . Daha sonra olasılıkla bir test örneği tarafından doğru ayrılamayacaktır olasılığı olduğunu öne sürülebilir -margin hiper yani, SVM ile kenar : bağlandığı $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

P_{error} \leq \frac{n_{error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

Bununla birlikte, (Hastie, Tibshirani ve Friedman, 2009), s.438'de, çok benzer bir sonuç bulunmuştur:

{Error}_{Test} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

Sonuç :

Bana öyle geliyor ki, bu sonuçlar arasında belli bir çatışma var. Öte yandan, bu referanslardan ikisi SVM literatüründe kanonik olmasına rağmen, özellikle doksanların ortasında SVM algoritması ile ilgili araştırmanın başladığını düşünürsek, biraz eski olmaya başlar (1998 ve 2000).

Sorularım:

Bu sonuçlar bugün hala geçerli mi yoksa yanlış oldukları kanıtlandı mı?
O zamandan beri nispeten gevşek koşullara sahip daha sıkı sınırlar elde edildi mi? Öyleyse, bunları kim tarafından ve nerede bulabilirim?
Son olarak, SVM hakkındaki ana genelleme sonuçlarını sentezleyen herhangi bir referans materyali var mı?

Kaynaklar :

Burges, JC (1998). "Örüntü Tanıma için Destek Vektör Makinelerine İlişkin Bir Eğitim", Veri Madenciliği ve Bilgi Keşfi , 2: 121-167

Hastie, T., Tibshirani, R. ve Friedman, J. (2009). İstatistiksel Öğrenmenin Unsurları , 2. baskı, Springer

Vapnik, VN (1998). İstatistiksel Öğrenme Teorisi , 1. baskı, John Wiley & Sons

Vapnik, VN (1999). "İstatistiksel Öğrenme Teorisine Genel Bakış", Yapay Sinir Ağlarında IEEE İşlemleri , 10 (5): 988-999

Vapnik, VN (2000). İstatistiksel Öğrenme Teorisinin Doğası , 2. baskı, Springer

machine-learning svm vc-dimension

— Daneel Olivaw
kaynak

SVM'ler için son teknoloji (2008 itibariyle) risk sınırlarını özetleyen bir referans: "Destek Vektör Makineleri" (Ingo Steinwart, Andreas Christmann, Springer 2008) .

— kayıt

Bahsettiğiniz literatürü ayrıntılı olarak bilmiyorum, ancak güncel olması gereken genelleme sınırlarının kapsamlı bir özetini Boucheron ve ark. (2004) (Bağlantı: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Avustralya-Şubat-2-14-2003-Tuebingen-Almanya-Ağustos-4-16-2003-Gözden Geçirilmiş-Dersler.pdf # sayfa = 176 )

SVM'nin bir kısmını, aşağıda ayrıntıları ve kanıtları dışarıda bırakarak çizeceğim.

Özellikle SVM sınırı hakkında ayrıntılı bir açıklama yapmadan önce, genelleme sınırlarının neyi başarmaya çalıştığını anlamamız gerekir.

Öncelikle gerçek olasılık bilindiğini varsayalım, o zaman mümkün olan en iyi sınıflandırıcı bayes sınıflandırıcısı olacaktır, yani $P(Y = +1| X = x)$

\begin{aligned} g * = {\begin{cases} + 1 i f P (Y = 1 | X = x) > 0.5 \\ - 1 o t h e r w i s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

İstatistiksel öğrenme teorisinin amacı şimdi sınıfı bir sınıflandırıcı (ör. SVM) ve bayes sınıflandırıcısı, yani Not olduğu olan beklenen zarar verilen veriler ve model sınıf olarak mümkün olan en iyi sınıflandırıcı . Vadeli o yaklaşım hatasının (diğer terim) göre çok daha kolay sınırlanmış olabilir çünkü tahmin hatası ve genellikle odak denir. Ayrıca burada yaklaşık hata hatasını da atlayacağım. $C$

\begin{aligned} {\hat{g}}_{n} = a r g min_{g \in C} L_{n} (g) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

\begin{aligned} L ({\hat{g}}_{n}) - L (g *) = L ({\hat{g}}_{n}) - L (g_{c}^{*}) + L (g_{c}^{*}) - L (g *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$

Tahmin hatası ayrıca ile ayrıştırılabilir Şimdi bu iki adımla sınırlandırılabilir: $Z$

\begin{aligned} Z = Z - E Z + E Z . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

McDiarmid eşitsizliğini kullanarak ilişkili $Z - \mathbb{E}Z$
Bağlanmış Rademacher karmaşıklığı ile $\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

McDiarmids eşitsizliğini kullanarak, kayıp fonksiyonu fazla olmayan bir aralıkta değişiyorsa, birinci adımın ; burada güven düzeyidir. İkinci adımda Eğer ayrı bir kayıp fonksiyonunuz varsa, yani 0-1 gibi Lipschitz olmayanları gösterebiliriz -loss, Rademacher Karmaşıklığı daha da sınırlamak için VC-Boyutuna ihtiyacınız olacaktır. Ancak, Menteşe kaybı gibi L-lipschitz fonksiyonları için bu sınırlandırılabilir burada $B$

\begin{aligned} Z - E Z \leq 2 B \sqrt{\frac{l n (1 / δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E Z \leq 2 R_{n} (C), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} R_{n} (C) \leq λ L R / \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$ "Düzenleyici" terimi düzenleyiciyi belirtir. Menteşe Kaybı ve (Gauchy-Schwartz eşitsizliği ile kanıtla) için bu daha da basitleşir. Sonunda tüm sonuçları bir araya getirerek

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L ({\hat{g}}_{n}) - L (g_{c}^{*}) \leq 2 (1 + λ R) \sqrt{\frac{l n (1 / δ)}{2 n}} + 4 λ L R / \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

— dkoehn
kaynak