Çekirdek yöntemlerinin sınırlamaları nelerdir ve çekirdek yöntemlerinin ne zaman kullanılması gerekir?


10

Çekirdek yöntemleri birçok denetimli sınıflandırma görevinde çok etkilidir. Peki, çekirdek yöntemlerinin sınırlamaları nelerdir ve çekirdek yöntemlerinin ne zaman kullanılması gerekir? Özellikle büyük ölçekli veri döneminde, çekirdek yöntemlerinin ilerlemeleri nelerdir? Çekirdek yöntemleri ile çoklu örnek öğrenme arasındaki fark nedir? Veri ise 500x10000, 500numunelerin sayısı ve 10000biz çekirdek yöntemlerini kullanabilirsiniz, bu durum daha sonra, her bir özelliğin boyuttur?

Yanıtlar:


16

Çekirdek yöntemleri denetimli ve denetimsiz problemler için kullanılabilir. İyi bilinen örnekler , sırasıyla destek vektör makinesi ve çekirdek spektral kümelenmesidir .

Çekirdek yöntemleri, dönüştürmenin tipik olarak doğrusal olmadığı (ve daha yüksek boyutlu bir alana) dönüştürülmüş bir özellik uzayında doğrusal bir algoritma kullanmak için yapılandırılmış bir yol sağlar. Bu çekirdek hilesinin getirdiği temel avantaj, doğrusal olmayan modellerin makul bir hesaplama maliyetiyle bulunabilmesidir.

Hesaplama maliyetinin makul olduğunu, ancak ihmal edilemez olmadığını söyledim. Çekirdek yöntemleri tipik olarak bir çekirdek matrisi oluştururKR,N-xN- ile N-eğitim örneği sayısı. Bu nedenle çekirdek yöntemlerinin karmaşıklığı, girdi boyutlarının sayısından ziyade eğitim örneği sayısının bir fonksiyonudur. Destek vektör makineleri, örneğin, arasında bir eğitim karmaşıklığına sahiptir.Ö(N-2) ve Ö(N-3). Çok büyük sorunlar içinN-, bu karmaşıklık şu anda yasaklayıcıdır.

Bu, boyut sayısı büyük ve örnek sayısı nispeten düşük olduğunda (örneğin, 1 milyondan az) çekirdek yöntemlerini hesaplama açısından çok ilginç kılar.

İlgili: Destek vektör makinesi için doğrusal çekirdek ve doğrusal olmayan çekirdek?

Büyük Ölçekli Sorunlar için SVM

İçin çok gibi yüksek boyutlu problemler, 10000söz konusu anma boyutları, daha yüksek boyutlu bir özellik boşluğa eşleme gerek genellikle yoktur. Giriş alanı zaten yeterince iyi. Bu tür problemler için, doğrusal yöntemler hemen hemen aynı tahmin performansıyla daha hızlı büyüklük düzenleridir . Bu yöntemlerin örnekleri LIBLINEAR veya Vowpal Wabbit'te bulunabilir .

Yüksek boyutlu giriş alanında çok sayıda örneğiniz olduğunda doğrusal yöntemler özellikle ilginçtir. Sadece sahip olduğun zaman500 Doğrusal olmayan bir çekirdek yöntemi kullanan örnekler de ucuz olacaktır ( N-küçüktür). Varsa, söyle,5.000.000 içindeki örnekler 10.000 boyutlar, çekirdek yöntemleri mümkün olmaz.

Birçok eğitim örneğindeki (büyük olarak adlandırılan) düşük boyutlu sorunlar için N- küçük psorunlar), doğrusal yöntemler kötü tahmin doğruluğu sağlayabilir. Bu tür sorunlar için EnsembleSVM gibi topluluk yöntemleri , standart SVM'ye kıyasla önemli ölçüde azaltılmış hesaplama maliyetiyle doğrusal olmayan karar sınırları sağlar.


Ayrıntılı cevaplar için çok teşekkürler efendim. Yüksek boyutlarda buldum, eğer RBFçekirdeği kullanırsam, libsvmher zaman fazla sığar, sınıflandırıcı test setinde yüksek bir doğruluk ancak düşük doğruluk elde eder. Ve sınıflandırıcıdan önce boyut küçültme yaparsam ve küçültülmüş boyutlar eğitim örneği sayısına yakınsa, sınıflandırıcı eğitim ve test seti arasında iyi bir kar elde edebilir. Sonuçlar en ampirik sonuçlara uyuyor mu? Teşekkürler.
madencilik

Çekirdek yöntemleri, yüksek girdi boyutluluğuna karşı oldukça sağlamdır. Tipik olarak, kullanmadan önce boyutsal küçültme yapmanıza gerek yoktur. Tüm parametreleri, özellikle gammaRBF çekirdeğini ayarlamak çok önemlidir . İçin en uygun değer gamma, giriş boyutlarının sayısı ile ilgilidir. En yaygın ayar yaklaşımı çapraz onaylamadır. gammaBoyutsal azalma ile ve boyutsuzluk için aynı değeri kullandıysanız, muhtemelen bir hata yapıyorsunuzdur.
Marc Claesen

Evet efendim. Genellikle çapraz paketi yapmak için grid.pyin libsvmpaketini kullanırım. Ve çoğu durumda, yüksek boyutlu veriler için , bu seviye gammagibi her zaman çok küçüktür 0.00001.
madencilik

Merhaba efendim, açık kaynak projenizi kontrol ettim EnsembleSVM, çapraz doğrulama prosedürünü çok iş parçacıklı hale getirmesi gerekiyor mu? Ve tahmin aşamasında, toplu işlerde ve çok iş parçacıklı veya çoklu makinelerde büyük verileri tahmin etmenin iyi olacağını düşünüyorum.
madencilik

Çoklu kullanma EnsembleSVM isteğe bağlıdır, ancak varsayılan olarak etkindir esvm-trainve esvm-predict. Devre dışı çoklu kullanım için, bu araçlar aşağıdaki bayrak kullanın: -threads 1.
Marc Claesen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.