Naive Bayes ne zaman SVM'den daha iyi performans gösterir?


17

Baktığım küçük bir metin sınıflandırma probleminde, Naive Bayes bir SVM'ye benzer veya daha yüksek bir performans sergiliyordu ve çok kafam karıştı.

Bir algoritmanın diğerine karşı zaferine hangi faktörlerin karar verdiğini merak ediyordum. SVM'ler üzerinde Naive Bayes kullanmanın bir anlamı olmadığı durumlar var mı? Birisi buna ışık tutabilir mi?


1
q12

Yanıtlar:


27

Belirli bir veri kümesi için hangisinin en iyi sınıflandırma yöntemi olduğu konusunda tek bir cevap yoktur . Belirli bir veri kümesi üzerinde karşılaştırmalı bir çalışma için her zaman farklı sınıflandırıcılar düşünülmelidir. Veri kümesinin özellikleri göz önüne alındığında, bazı yöntemlere öncelik verebilecek bazı ipuçları olabilir. Ancak yine de mümkünse herkesle denemeler yapılması tavsiye edilir.

Naif Bayes Sınıflandırıcısı (NBC) ve Destek Vektör Makinesi (SVM), her biri için çekirdek işlevi seçimi de dahil olmak üzere farklı seçeneklere sahiptir. Her ikisi de parametre optimizasyonuna duyarlıdır (örneğin, farklı parametre seçimi çıktılarını önemli ölçüde değiştirebilir) . Yani, NBC'nin SVM'den daha iyi performans gösterdiğini gösteren bir sonucunuz varsa. Bu sadece seçilen parametreler için geçerlidir. Ancak, başka bir parametre seçimi için SVM'nin daha iyi performans gösterdiğini görebilirsiniz.

Genel olarak, NBC'deki bağımsızlık varsayımı veri kümenizin değişkenlerinden memnunsa ve sınıf çakışması derecesi düşükse (yani potansiyel doğrusal karar sınırı), NBC'nin iyi olması beklenir. Bazı veri kümeleri için, örneğin sarıcı özellik seçimi kullanılarak yapılan optimizasyonla, NBC diğer sınıflandırıcıları yenebilir. Karşılaştırılabilir bir performans elde etse bile, NBC yüksek hızı nedeniyle daha arzu edilir olacaktır.

Özetle, bir bağlamda diğerlerinden daha iyi performans gösteriyorsa hiçbir sınıflandırma yöntemini tercih etmemeliyiz, çünkü başka bir bağlamda ciddi şekilde başarısız olabilir. ( BU VERİ MADENCİLİĞİ SORUNLARINDA NORMALDİR ).


7
(+1) Ücretsiz öğle yemeği teoremi de denmez . Parametre duyarlılık karşılaştırmasına tamamen katılmıyorum (Tek Karar Ağacı IMHO'nun en hassas yaklaşımlarından biridir), ancak burada bunun hakkında tartışmamalıyız :).
steffen

@steffen, değerli yorumunuz için teşekkürler. Modelleri optimize etmenin birçok farklı yolu vardır ve her durumda hangi modelin daha hassas olduğunu genelleştiremeyeceğimizi kabul ediyorum. Özellik seçimi için DT muhtemelen NBC'den daha az duyarlıdır, ancak genel olarak durum böyle olmayabilir. Cevabınızı yorumunuzu dikkate alacak şekilde düzenleyeceğim ve isterseniz de düzenleyebilirsiniz. Çok teşekkürler :).
soufanom

3
Parametre hassasiyeti hakkındaki yorum için +1. SVM'leri destekleyen teorinin çoğunun sabit bir çekirdeğe sahip modellere uygulandığını da belirtmek gerekir, bu nedenle hiper parametreleri ( dikkatli bir şekilde yapılması ve yapılması gerekir) optimize etmeye çalıştığınız anda teorik tabanın çoğu artık geçerli değildir.
Dikran Marsupial
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.