Çekirdek yöntemleri denetimli ve denetimsiz problemler için kullanılabilir. İyi bilinen örnekler , sırasıyla destek vektör makinesi ve çekirdek spektral kümelenmesidir .
Çekirdek yöntemleri, dönüştürmenin tipik olarak doğrusal olmadığı (ve daha yüksek boyutlu bir alana) dönüştürülmüş bir özellik uzayında doğrusal bir algoritma kullanmak için yapılandırılmış bir yol sağlar. Bu çekirdek hilesinin getirdiği temel avantaj, doğrusal olmayan modellerin makul bir hesaplama maliyetiyle bulunabilmesidir.
Hesaplama maliyetinin makul olduğunu, ancak ihmal edilemez olmadığını söyledim. Çekirdek yöntemleri tipik olarak bir çekirdek matrisi oluştururK ∈R,N-× N ile N-eğitim örneği sayısı. Bu nedenle çekirdek yöntemlerinin karmaşıklığı, girdi boyutlarının sayısından ziyade eğitim örneği sayısının bir fonksiyonudur. Destek vektör makineleri, örneğin, arasında bir eğitim karmaşıklığına sahiptir.Ö(N-2) ve O (N-3). Çok büyük sorunlar içinN-, bu karmaşıklık şu anda yasaklayıcıdır.
Bu, boyut sayısı büyük ve örnek sayısı nispeten düşük olduğunda (örneğin, 1 milyondan az) çekirdek yöntemlerini hesaplama açısından çok ilginç kılar.
İlgili: Destek vektör makinesi için doğrusal çekirdek ve doğrusal olmayan çekirdek?
Büyük Ölçekli Sorunlar için SVM
İçin çok gibi yüksek boyutlu problemler, 10000
söz konusu anma boyutları, daha yüksek boyutlu bir özellik boşluğa eşleme gerek genellikle yoktur. Giriş alanı zaten yeterince iyi. Bu tür problemler için, doğrusal yöntemler hemen hemen aynı tahmin performansıyla daha hızlı büyüklük düzenleridir . Bu yöntemlerin örnekleri LIBLINEAR veya Vowpal Wabbit'te bulunabilir .
Yüksek boyutlu giriş alanında çok sayıda örneğiniz olduğunda doğrusal yöntemler özellikle ilginçtir. Sadece sahip olduğun zaman500 Doğrusal olmayan bir çekirdek yöntemi kullanan örnekler de ucuz olacaktır ( N-küçüktür). Varsa, söyle,5.000.000 içindeki örnekler 10.000 boyutlar, çekirdek yöntemleri mümkün olmaz.
Birçok eğitim örneğindeki (büyük olarak adlandırılan) düşük boyutlu sorunlar için N- küçük psorunlar), doğrusal yöntemler kötü tahmin doğruluğu sağlayabilir. Bu tür sorunlar için EnsembleSVM gibi topluluk yöntemleri , standart SVM'ye kıyasla önemli ölçüde azaltılmış hesaplama maliyetiyle doğrusal olmayan karar sınırları sağlar.
RBF
çekirdeği kullanırsam,libsvm
her zaman fazla sığar, sınıflandırıcı test setinde yüksek bir doğruluk ancak düşük doğruluk elde eder. Ve sınıflandırıcıdan önce boyut küçültme yaparsam ve küçültülmüş boyutlar eğitim örneği sayısına yakınsa, sınıflandırıcı eğitim ve test seti arasında iyi bir kar elde edebilir. Sonuçlar en ampirik sonuçlara uyuyor mu? Teşekkürler.