Destek vektör makinesi için doğrusal çekirdek ve doğrusal olmayan çekirdek?


45

Destek vektör makinesini kullanırken, RBF gibi lineer çekirdeğe göre doğrusal olmayan çekirdeği seçme konusunda yönergeler var mı? Bir zamanlar, doğrusal olmayan çekirdeğin, özelliklerin sayısı büyük olduğunda iyi performans gösterme eğiliminde olmadığını duydum. Bu konuda referans var mı?


1
Bilgeliğime göre, bu eldeki probleme dayanıyor ve bu tür thumbrule'lerin pratikte kullanılması tehlikelidir.
htrahdis

Yanıtlar:


66

Genellikle karar doğrusal veya bir RBF (aka Gaussian) çekirdeği kullanılıp kullanılmayacağıdır. Dikkate alınması gereken iki ana faktör vardır:

  1. Doğrusal bir çekirdek için optimizasyon problemini çözmek çok daha hızlıdır, bkz. Örneğin LIBLINEAR.
  2. Tipik olarak, mümkün olan en iyi prediktif performans, doğrusal olmayan bir çekirdek için (veya en azından doğrusal olanın kadar iyidir) daha iyidir.

O gösterilir oldu doğrusal çekirdek RBF bir dejenere versiyonu dolayısıyla doğrusal çekirdek asla daha doğru düzgün ayarlanmış RBF kernel daha. Bağladığım kağıttan soyut alıntı:

Analiz ayrıca, Gaussian çekirdeği kullanılarak tam model seçimi yapıldığında doğrusal SVM düşünülmesine gerek olmadığını göstermektedir.

Temel bir kural, NTU'nun vektör sınıflamasını desteklemek için pratik rehberinde kısaca ele alınmıştır (Ek C).

Özelliklerin sayısı büyükse, verileri daha yüksek boyutlu bir alana eşlemeniz gerekmeyebilir. Yani, doğrusal olmayan haritalama performansı iyileştirmez. Doğrusal çekirdeği kullanmak yeterince iyidir ve biri yalnızca C parametresini arar.

Sonuca varmak, az ya da çok doğru, ancak geriye doğru bir argüman var. Uygulamada, lineer çekirdek, özelliklerin sayısı büyük olduğunda çok iyi performans gösterme eğilimindedir (örneğin daha yüksek boyutlu bir özellik alanına eşlemenize gerek yoktur). Bunun tipik bir örneği, giriş alanında binlerce boyutta olan belge sınıflandırmasıdır.

Bu durumlarda, doğrusal olmayan çekirdekleri mutlaka doğrusal olandan önemli ölçüde daha kesin değildir. Bu temelde doğrusal olmayan çekirdeğin çekiciliğini yitirdiği anlamına gelir: öngörücü performansta çok az kazançlı ya da hiç olmayan bir şekilde eğitmek için daha fazla kaynağa ihtiyaç duyarlar, neden rahatsız ediyorlar.

TL; DR

Her zaman ilk önce doğrusal deneyin, çünkü eğitmek çok daha hızlıdır (AND testi). Doğruluk yeterliyse, başarılı bir iş yapmak için kendinizi arkaya yaslayın ve bir sonraki soruna geçin. Değilse, doğrusal olmayan bir çekirdeği deneyin.


1
: Ben çekirdek numara için bu açıklama var stats.stackexchange.com/questions/131138/...

37

Andrew Ng, bu videoda 14:46 ile başlayan güzel bir kural açıklaması veriyor .

Anahtar noktaları

  • Özellik sayısı, gözlem sayısından daha büyük olduğunda doğrusal çekirdeği kullanın.
  • Gözlem sayısı, özelliklerin sayısından büyük olduğunda, Gauss çekirdeğini kullanın.
  • Gauss çekirdeği kullanılırken gözlem sayısı 50.000'den yüksekse sorun olabilir; Bu nedenle, biri doğrusal çekirdeği kullanmak isteyebilir.

kabul etti ................
datmannz

1
bağlantı öldü: Sanırım bu aynı video: youtube.com/watch?v=hDh7jmEGoY0
ihebiheb
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.