SVP'yi backpropagation yoluyla nasıl eğitebilirim?


11

Backpropagation kullanarak bir SVM (doğrusal bir şey söylemek, işleri kolaylaştırmak için) mümkün olup olmadığını merak ediyordum?

Şu anda, bir yol bloğundayım, çünkü sadece sınıflandırıcının çıktısını şöyle yazmayı düşünebilirim

f(x;θ,b)=sgn(θx-(b+1))=sgn(g(x;θ,b))

Bu nedenle, "geriye doğru geçişi" (yayılan hata) denediğimizde ve hesapladığımızda yana türev olan sgn(x)dsgn(x)

Ex=Ef(x;θ,b)f(x;θ,b)x=Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x=δdsgn(z)dzθ=δ0θ=0
sgn(x)
dsgn(x)dx={0Eğer x02δ(x)Eğer x=0

Benzer şekilde, olduğunu görüyoruz, bu da herhangi bir bilgiyi geri veremeyeceğimiz veya degrade güncellemeleri yapamayacağımız anlamına geliyor!E/θ=E/b=0

Ne oluyor?

Yanıtlar:


14

SVM'nin 0-1 kaybı olarak da adlandırılan eğitim vakalarındaki doğruluğunu doğrudan optimize etmeye çalışırsanız, degradenin kaybolması doğrudur. Bu yüzden insanlar bunu yapmazlar. :)

Eğer yapmaya çalıştığımız şey, olsa, değil gerçekten henüz bir SVM; daha çok genel bir doğrusal sınıflandırıcıdır. Özellikle 0-1 kayıp fonksiyonunu menteşe kaybı olarak bilinen dışbükey bir vekil ile değiştirdiğinizde bir SVM ortaya çıkar ; bu bir SVM fikrinin temelini oluşturan marj maksimizasyonu fikridir. Bu kayıp fonksiyonu (neredeyse) farklılaşabilir; tek sorun, çıktıların tam olarak menteşe noktasında olması durumunda (a) en makul varsayımlar altında sıfır olasılıkla gerçekleşirse ve (b) o zaman türev olarak (veya aradaki herhangi bir şey) 0 veya 1'i kullanabilirsiniz. bu durumda teknik olarak alt gradyanlı iniş yapıyorsunuz.

Geri yayılımdan bahsettiğiniz için, sinir ağlarını optimize etmeye en azından biraz aşina olduğunuzu varsayacağım. Aynı problem sinir ağı sınıflandırıcılarında da görülür; bu yüzden insanlar başka kayıp fonksiyonlarını da orada kullanıyor.


birx+b

1
Evet, doğrusal bir SVM temel olarak çıkış düğümünde doğrusal aktivasyon ile 1 katmanlı NN'ye eşdeğerdir ve menteşe kaybı ile eğitilir.
Dougal

5

Sadece lineer durumla ilgileniyorsanız, hem dışbükey hem de analitik olduğu için lojistik regresyon (LR) daha iyi bir seçimdir (normalleştirme ile ilgileniyorsanız bunu sırtlamak isteyebilirsiniz). Ancak, doğrusal olmayanlara gittiğinizde, zor kısım burada ortaya çıkar. Doğrusal olmayan durumlarda, hem dışbükey hem de analitik şeyleri tutmanın makul bir yolu yoktur, ikisinden birini feda etmeniz gerekir. Sinir ağlarında dışbükeyliği feda edersiniz ve svms'de holomorfizmi feda edersiniz.

Açıkçası, LR ve SVM arasında bir fark yoktur, svms sadece bir noktanın hangi tarafında olduğunu tahmin eder, LR'ler de sınırdan ne kadar uzakta olduklarını göz önünde bulundurur (sınır marjı hattında sigmoid size olasılığı verir 0.5 LR durumunda). SVM'ler bu uzlaşmayı yapmaya zorlanır, çünkü doğrusal olmayan çekirdekler için kavisli bir hiper düzlemden mesafenin sezgisi (cebirsel çeşitlilik daha iyi bir terimdir) doğrusal durumda olduğu gibi aynı değildir, aslında hiper yüzeyden en kısa mesafeyi çözme sorunu belirli bir noktaya kadar çok zordur (SVM'nin kendisinden daha zordur), ancak diğer taraftan Vapnik, sınırın hangi tarafında yattığını tahmin etmek için O (1) zamanında olduğu gibi çok kolaydır. Bu, SVM'nin arkasındaki gerçek fikirdir ve istatistiksel öğrenme teorisinde mevcut tek dışbükey optimizasyon alternatifidir. Ama benim hissim biraz fazla fedakarlık ediyorsun, hem holomorfizm hem de olasılık doğası kayboluyor. Ancak, yer doğru SVM'ler gibi belirli durumlar için çok güvenilirdir ve dışbükey olmayan alternatiflerinden farklı olarak tamamen yanlışlanabilir bilimsel modellerdir.

Tldr: evet, ortalama değer teoremi analitik olmayan fonksiyonlar için kurtarmaya gelir.Konveks-analitik olmayan durumlarda, ortalama değer thorem, alt gradyanlar üzerindeki bazı sınır koşullarının bir alt gradyanı iyi yapmak için kullandığı bir eşitsizliğe dönüşür.


1
LR sizin için ne ifade ediyor?
Sycorax, Reinstate Monica'ya

Sycorax lojistik regresyon
Franck Dernoncourt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.