SVM regresyonunu anlama: nesnel işlev ve “düzlük”


12

Sınıflandırma için SVM'ler bana sezgisel geliyor: en aza indirmenin maksimum marjı nasıl sağladığını anlıyorum . Ancak regresyon bağlamında bu amacı anlamıyorum. Çeşitli metinler ( burada ve burada ) bunu "düzlüğü" en üst düzeye çıkarmak olarak tanımlar. Bunu neden yapmak istiyoruz? Regresyonda ne "marj" kavramına eşdeğerdir?||θ||2

İşte birkaç girişimde bulunmaya çalışılan cevaplar, ama benim anlayışımın hiçbir faydası olmadı.


Ben gerçekten SVM teorisi hakkında değilim, ama bağlandığınız çekirdek makineleri tartışmasındaki 'düzlük', 'küçük ikinci türevi var' (spline yumuşatma modelleri için tipik motivasyonu düşünün).
konjugateprior

Yanıtlar:


11

Düzlük hakkında düşündüğüm bir yol, tahminlerimi özelliklerdeki bozulmalara daha az duyarlı hale getirmesidir. Ben formu bir modelini inşa ediyorum Yani, eğer benim özellik vektörü zaten, o zaman daha küçük değerler normalize edilmiş demek benim modeli ölçümünde hatalara karşı daha az duyarlıdır / rastgele şoklar / özelliklerin durağan olmaması, . Verileri eşit derecede iyi açıklayan iki model ( yani iki olası ) göz önüne alındığında , 'düz' olanı tercih ederim.x θ x θ

y=xθ+ϵ,
xθxθ

Ridge Regresyonu'nun çekirdek hile veya SVM 'tüpü' regresyon formülasyonu olmadan aynı şeyi yapmak olduğunu da düşünebilirsiniz.

edit : @ Yang'ın yorumlarına yanıt olarak, biraz daha açıklama:

  1. Doğrusal durumu düşünün: . Varsayalım bağımsız, bazı dağılımından istatistiksel bağımsız çizilir . Nokta ürün kimliğine göre, , burada ve arasındaki açıdır , bu da muhtemelen küresel olarak eşit dağılımla dağıtılır. Şimdi not: 'yayılma' ( örn bizim tahminlerin numune standart sapması) orantılıdır etmektir. Gözlemlerimizin gizli, gürültüsüz versiyonlarıyla iyi MSE elde etmek için,.x θ y = | | x | | | | θ | | cos ψ + ϵ ψ θ x y | | θ | | | | θ | |y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||cf James Stein tahmincisi .
  2. Birçok özelliğe sahip doğrusal durumu düşünün. ve modellerini göz önünde bulundurun . Eğer 'den fazla İçinde sıfır elemanları daha az sayıda değişkenler üzerindeki bağımlılıkları (beri, ama aynı açıklayıcı gücü hakkında, biz, Occam'ın ustura üzerinde, taban tercih ediyorum yani biz 'bitti özellik seçimi' olan bazı unsurları belirleyerek ve sıfıra). Düzlük, bu argümanın sürekli bir versiyonudur. her marjinalinde birim standart sapma varsa ve örneğin 10 olan 2 öğeye ve kalan sahipsey=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2Gürültü toleransınıza bağlı olarak 0.0001'den küçükse, bu iki özelliği etkili bir şekilde 'seçer' ve geri kalanları sıfırlar.
  3. Çekirdek hilesi kullanıldığında, yüksek (bazen sonsuz) boyutlu vektör uzayında doğrusal bir regresyon gerçekleştiriyorsunuz. öğesinin her öğesi artık özelliklerinize değil, örneklerinizden birine karşılık gelir . öğesinin öğeleri sıfırdan farklıysa ve kalan sıfırsa, sıfır olmayan öğelerine karşılık gelen özelliklere 'destek vektörleri' denir. SVM modelinizi, örneğin diskte saklamak için, yalnızca bu özellik vektörlerini saklamanız gerekir ve geri kalanını da atabilirsiniz. Şimdi düzlük gerçekten önemlidir, çünküθkθmkkθkkküçük depolama ve iletim, vb gereksinimleri azaltır . Yine, gürültü toleransınıza bağlı olarak, bir SVM regresyonu yaptıktan sonra muhtemelen tüm öğelerini sıfırlayabilirsiniz, ancak en büyüğü için, en büyük . Buradaki düzlük, destek vektörlerinin sayısına göre parsimona eşdeğerdir.θll

1
yani bu temel olarak OLS'den ikinci dereceden kayıp fonksiyonu yerine bir 'tüp' kayıp fonksiyonu (tahminin +/- epsilon puanı için 0 ceza) ile regresyon mu?
konjugateprior

@ Konjugat Öncesi: evet, genellikle çekirdek regresyonu, olarak düşünebileceğiniz 'epsilon-insenstive loss' işlevini en aza indirir, örneğin bkz. Kernelsvm.tripod.com veya Smola ve ark . f(x)=(|x|ϵ)+
shabbychef

@shabbychef Teşekkürler. Orada neler olduğunu hep merak ettim.
konjugateprior

@Conjugate Önceki: Bunun aslında istenen kayıp işlevi olduğunu düşünmüyorum, ancak matematik iyi çalışıyor, bu yüzden onunla koştular. En azından bu benim şüphem.
shabbychef

@shabbychef: Hala kayboldum. Tek boyutlu durumu düşünün: . yaptığı tüm küçültme size daha yatay bir çizgi verir. Sanırım bahsettiğiniz ikinci türev ile hiçbir ilgisi yok ("pürüzsüzlük"). Ve örnek puanlarım (0,0) ve (1,1e9) ise, neden daha düz bir çizgiyi tercih ederim? Yani, benim söylemek (1,1e9-1) (için neden (0,0) 'dan daha düz hattı tercih ediyorum - toleransı 1'dir ((1,1e9) aracılığıyla) yerine hattının ) veya (1,1e9 + 1) ( ) üzerinden geçen satır ? y=θxs θ = 1 e 9 - 1 θ = 1 e 9 θ = 1 e 9 + 1θϵθ=1e91θ=1e9θ=1e9+1
Yang

3

shabbychef model karmaşıklığı açısından çok net bir açıklama yaptı. Herkese yardımcı olması durumunda bu sorunu başka bir açıdan anlamaya çalışacağım.

Temel olarak SVC'deki marjı en üst düzeye çıkarmak istiyoruz. Bu, SVR'de aynıdır, ancak daha iyi genelleme için öngörülen bir kesinlikte tahmin hatasını en üst düzeye çıkarmak istiyoruz . Burada, maksimize etmek yerine tahmin hatasını en aza indirirsek, bilinmeyen verilerdeki tahmin sonucunun fazla yerleştirilmesi daha olasıdır. Tek boyutlu bir durumda "tahmin hatasını en üst düzeye çıkar" konusunu düşünelim.e

Tek boyutlu durumda amacımız, bütün noktalardan mesafeleri maksimize etmektir eğim çizgisi için içinde . Biz hassas kısıtlamayla ayarlamanız Not biz böylece en üst düzeye çıkarmak , mesafeyi değil minimize . O zaman bir noktadan bir çizgiye olan mesafenin çok basit denklemine bir göz atalım.y = ω x + b e e(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

Şu anda pay ile sınırlıdır . Mesafeyi en üst düzeye çıkarmak için yapmaya çalıştığımız şey en aza indirmektir .ωeω

Mesafe denklemi her zaman Öklid mesafesi olacağından herkes tek boyutlu durumu N boyutlu duruma genişletebilir .

Ayrıca, karşılaştırma için SVR'deki optimizasyon problemini de gözden geçirebiliriz [1].

s. t. { y i - < ω , x i > - b e < ω , x i > + b - y ie

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Teşekkürler.

[1] Smola, A. ve B. Schölkopf. Destek vektör regresyonu hakkında bir eğitim. İstatistik ve Hesaplama, Vol. 3, Ağustos 2004, sayfa 199-222.


0

En azından, minimizing bir SVM sınıflandırma ayarında olduğu gibi kavram marjı ile ilgisi olduğunu düşünmüyorum . Yukarıdaki iki yazı ile iyi açıklanmış tamamen farklı bir amaca hizmet eder, yani model karmaşıklığını azaltır ve fazla takılmayı önler.θ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.