SVM algoritmasının arkasındaki istatistiksel model nedir?


28

Modele dayalı bir yaklaşım kullanarak veriyle uğraşırken ilk adımın veri prosedürünü istatistiksel bir model olarak modellemek olduğunu öğrendim. Ardından bir sonraki adım bu istatistiksel modele dayanan verimli / hızlı çıkarım / öğrenme algoritması geliştirmektir. Bu yüzden hangi istatistiksel modelin destek vektör makinesi (SVM) algoritmasının arkasında olduğunu sormak istiyorum.

Yanıtlar:


27

Genellikle bir kayıp fonksiyonuna karşılık gelen bir model yazabilirsiniz (burada SVM sınıflandırmasından ziyade SVM regresyonu hakkında konuşacağım; özellikle basit)

Örneğin, doğrusal bir modelde, eğer kayıp fonksiyonunuz ise, bunu en aza indirgemek için maksimum olabilir. . (Burada doğrusal bir çekirdeğim var)f α exp ( - birig(εi)=ig(yixiβ)= exp ( - afexp(ag(ε)) =exp(ag(yxβ))

Doğru hatırlıyorsam, SVM regresyonunun şu şekilde bir kayıp işlevi vardır:

epsilon-duyarsız kaybın konusu

Bu, üstel kuyruklarla ortada tekdüze bir yoğunluğa tekabül eder (negatifini ya da negatifinin bir kısmını katlayarak gördüğümüz gibi).

karşılık gelen yoğunluğun grafiği

Bunlardan 3 parametre ailesi vardır: köşe konumu (bağıl duyarsızlık eşiği) artı konum ve ölçek.

Bu ilginç bir yoğunluk; birkaç yıl önce bu belirli dağılıma bakmaktan hemen bahsettiğimde, bunun yeri için iyi bir tahminci, köşelerin olduğu yere karşılık gelen simetrik olarak yerleştirilmiş iki kuantinin ortalamasıdır (örneğin, orta kısım , belirli bir süre için MLE'ye iyi bir yaklaşım verecektir. SVM kaybında sabitin seçimi); scale parametresi için benzer bir tahmin edici, farklılıklarına göre olacaktır; üçüncü parametre ise temelde hangi yüzdelerin bulunduğunu hesaplamaya tekabül eder (bu, genellikle SVM için olduğu gibi tahmin edilmek yerine seçilebilir).

Dolayısıyla, en azından SVM regresyonu için oldukça basit görünüyor, en azından tahmin edicileri maksimum olasılıkla almayı seçiyorsak.

(Sormak üzeresiniz ... SVM ile olan bu özel bağlantı için bir referansım yok: Ben şimdi çalışmıştım. O kadar basit ki, onlarca kişi benden önce bunu çözmüş olacak, bu yüzden şüphesiz bunun için referanslar var - sadece hiç görmedim.)


2
(Bunu daha önce başka bir yerde cevapladım, ancak onu burada da sorduğunuzu görünce sildim ve buraya taşıdım; matematik yazma ve resim ekleme yeteneği burada çok daha iyi - ve arama işlevi de daha iyi, bu yüzden bulmak daha kolay birkaç ay)
Glen_b -Reinstate Monica

2
+1, ayrıca vanilya SVM, normu aracılığıyla parametrelerinde önceden bir Gaussian'a da sahiptir . 2
Firebug

2
OP, SVM hakkında soru soruyorsa, muhtemelen sınıflandırma ile ilgilenmektedir (bu, SVM'lerin en yaygın uygulamasıdır). Bu durumda, kayıp biraz farklı olan menteşe kaybıdır (artan kısımya sahip değilsiniz). Modelle ilgili olarak, akademisyenlerin konferansta SVM'lerin olasılıklı bir çerçeve kullanmak zorunda kalmadan sınıflandırma yapmak için tanıtıldığını söylediklerini duydum . Muhtemelen bu yüzden referans bulamıyorsun. Öte yandan, menteşe kaybını asgariye
indirmeyi

4
Sırf olasılıksal bir çerçeveye sahip olmanız gerekmediği için ... yaptığınız şeyin bir karşılığı olmadığı anlamına gelmez. Bir kişi normalliği kabul etmeden en küçük kareleri yapabilir, ancak bunun iyi çalıştığını ve yanlarında hiçbir yerde olmadığınızı anlamak daha faydalı olabilir.
Glen_b -Reinstate Monica

3
Belki de icml-2011.org/papers/386_icmlpaper.pdf bunun için bir referans mı? (Ben sadece inceledim )
Lyndon White

8

Bence birileri kelimenin tam anlamıyla sorunuzu zaten yanıtladı, ancak olası bir karışıklığı gidermeme izin verin.

Sorunuz biraz aşağıdakine benzer:

işlevine sahibim ve bunun için hangi diferansiyel denklemin merak ediyorum?f(x)=

Başka bir deyişle, kesinlikle sahip geçerli bir cevap (sen düzenlilik kısıtlamaları empoze eğer belki de eşsiz bir tane), ama ilk etapta bu işleve sebebiyet veren bir diferansiyel denklem değildi çünkü, sormak oldukça garip bir soru.
(Öte yandan, diferansiyel denklem göz önüne alındığında, ise size denklemi yazma sebebim de genellikle beri, onun çözümü için sormak doğal!)

İşte nedeni: Muhtemel / istatistiksel modelleri (özellikle de verilerden ortak ve koşullu olasılıkları tahmin etmeye dayanan , üretici ve ayrımcı modeller) düşündüğünüzü düşünüyorum .

SVM de değil. Tamamen farklı bir modeldir - bunları atlayan ve nihai karar sınırını doğrudan modellemeye çalışan olasılıklar lanetlenir.

Karar sınırının şeklini bulmakla ilgili olduğundan, arkasındaki sezgi olasılık veya istatistikten ziyade geometrik (veya belki de optimizasyon temelli demeliyiz).

Olasılıkların yol boyunca hiçbir yerde göz önüne alınmadığı göz önüne alındığında, o zaman, karşılık gelen bir olasılık modelinin ne olabileceğini sormak alışılmadık bir durumdur ve özellikle tüm hedef olasılıklar için endişelenmekten kaçınmaktı . Bu yüzden neden insanları onlar hakkında konuşurken görmüyorsunuz.


6
Bence prosedürünüzün altında yatan istatistiksel modellerin değerini düşürüyorsunuz. Yararlı olmasının nedeni, bir yöntemin arkasında hangi varsayımların olduğunu size söylemektir. Bunları bilirseniz, hangi durumlarla mücadele edeceğini ve ne zaman gelişeceğini anlayabilirsiniz. Ayrıca, altta yatan bir modele sahipseniz, svm'yi ilkeli olarak genelleştirebilir ve genişletebilirsiniz.
Olasılıksal

3
@probabilityislogic: "Prosedürün altında yatan istatistiksel modellerin değerini düşürdüğünüzü düşünüyorum." ... sanırım birbirimizden konuşuyoruz. Söylemeye çalıştığım , prosedürün arkasında istatistiksel bir model olmadığıdır . Ben am değil o it a posteriori uyan biri ile gelip mümkün olmadığını söyleyerek, ancak herhangi bir şekilde "arkasında" o olmadığını anlatmaya çalışıyorum ama doğrusu buna "fit" aslında sonra . Ben de am değil böyle bir şey yaptığını yararsız olduğunu söyleyerek; Son derece değerli olabileceği konusunda seninle aynı fikirdeyim. Lütfen bu farklılıkları aklınızda bulundurun.
Mehrdad

1
@Mehrdad: Bir posterioriye uyan birine rastlamak mümkün değil demiyorum , svm 'makinesi' olarak adlandırdığımız parçaların hangi sırayla toplandığını (onu tasarlayan insanların ne problemi olduğunu çözmek için) bilim tarihinden ilginç. Ancak herkesin bildiği gibi, bazı kütüphanelerde, svm motorunun bir tanımını içeren ve 200 yıl önce Glen_b'nin araştırdığı açıdan soruna saldıran henüz bilinmeyen bir el yazması olabilir. Belki kavramları a posteriori ve aslında sonra bilimde az güvenilirdir.
user603

1
@ user603: Buradaki problem sadece tarih değil. Tarihsel yönü bunun sadece yarısı. Diğer yarısı normalde gerçekte gerçekte nasıl türetildiğidir. Bir geometri problemi olarak başlar ve bir optimizasyon problemiyle sona erer. Hiç kimse türevdeki olasılık modeliyle başlamaz, yani olasılık model hiçbir şekilde sonucun “arkasında” değildi. Lagrangian mekaniğinin "arkasında" olduğunu iddia etmek gibi bir şey F = ma. Belki ona yol açabilir ve evet yararlıdır, ama hayır, öyle değil ve asla bunun temeli olmadı. Aslında tüm amaç oldu önlemek olasılık.
Mehrdad
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.