Sert marj SVM'nin kayıp fonksiyonu nedir?


23

İnsanlar yumuşak marj menteşe kaybı fonksiyonunu kullandığını söylüyor: . Bununla birlikte, yumuşak marjlı SVM'nin en aza indirmeye çalıştığı asıl amaç işlevi \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Bazı yazarlar \ | w \ | ^ 2 terim düzenleyicisini ve \ max (0,1-y_i (w ^ \ intercal x_i + b)) terim kaybı işlevini çağırır .max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Ancak, sert marjı SVM için, bütün amaç fonksiyonu adildir

12w2
mu ortalama sabit marj SVM sadece herhangi bir kayıp fonksiyonu olmayan bir regularizer minimize o? Bu çok garip geliyor.

Peki, eğer 12w2 bu durumda kayıp fonksiyonuysa, buna ikinci dereceden kayıp fonksiyonu diyebilir miyiz? Öyleyse, neden sert kar marjı SVM'nin yumuşak marjlı SVM'de düzenlileştirici olacağı ve karesel kayıptan menteşe kaybına neden bir değişiklik yapması gerekiyor?


Anladığım kadarıyla, zor kar marjınızdaki verileri kabul etmiyorsunuz demektir. Sonuç olarak, max (0, hesaplama) her zaman 0 döndürür.
fxm

Yanıtlar:


26

Yumuşak marj SVM'deki \ sum_i \ max (0,1-y_i (\ mathbf {w} ^ \ intercal \ mathbf {x} _i + b)) menteşe kaybı terimi yanlış sınıflandırmalarıimax(0,1yi(wxi+b)) cezalandırır . Sert marj SVM'de, tanım gereği, yanlış sınıflandırmalar yoktur.

Bu, gerçekten de, yüksek marjlı SVM'nin \ | \ mathbf {w} \ | ^ 2 seviyesini en aza indirmeye çalıştığı anlamına gelir w2. SVM probleminin formülasyonundan dolayı, kenar boşluğu 2/w. Bu nedenle, \ mathbf {w} normunu en aza indirmek w, marjı maksimize etmek için geometrik olarak eşdeğerdir. Tam olarak ne istiyoruz!

Düzenlileştirme , çözelti vektöründeki büyük katsayıları cezalandırmak suretiyle fazla uydurmamak için bir tekniktir. Sabit kenar SVM olarak kayıp fonksiyonu hem de ve bir regularizer.w2L2

Yumuşak marjlı SVM'de, menteşe kaybı terimi aynı zamanda bir düzenleyici gibi davranır, ancak yerine gevşek değişkenler üzerinde ve yerine . düzenli hale seyrekliği tetikler, bu nedenle standart destek vektörleri açısından seyrek olması (en küçük kareler SVM'in aksine).wL1L2L1


Son iki paragrafı biraz daha ayrıntılı ve matematikle açıklayabilir misiniz?
Nain

0

Sadece açıklığa kavuşturmak için, , noktaların doğrusal olarak ayrılabilir olması sınırlamasına tabi tutulur (yani, ikisi mükemmel şekilde ayıran bir hiper uçağı çizebilir). Başka bir deyişle, çözüm olarak kabul edebileceğimiz izin verilen tek değer, iki nokta kümesini ayıran değerlerdir.

12w2

Şimdi, sert kar marjının SVM'nin yumuşak kar marjından daha kolay “üstesinden geldiği” düşünülmektedir. Bu, (aşırı) karmaşık ve (potansiyel olarak) aşırı karar kararları yaratabilen, yeterince yüksek bir içeren bir RBF SVM ile düşünmek daha kolaydır . Marj ne kadar zorlaşırsa (kesin olarak daha yüksek bir "C" ile öykünülür), arama o kadar zorlaşır, iki nokta kümesini mükemmel bir şekilde sınıflandıran karar sınırlarını bulmaya çalışır.γ

"Yumuşak marj" a geçtiğimizde, kısıtlamalar gevşetilir ve "gevşeklik" ifadesiyle bir kısıtlama ile değiştirilir. Bu gevşek değişken bir "menteşe kaybı" terimi ile tanımlanır. Basitleştirmeden sonra, herkes SVM'lerle ilişkilendirilen menteşeye + 2 benzeri zarar dönemine ulaşır. FWIW, SVM'leri her yerde bulunan "gradyanları takip et" sorunu yerine bir optimizasyon problemi olarak çerçevelemeyi seviyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.