Saf Bayesian sınıflandırıcıları neden bu kadar iyi performans gösteriyor?


38

Naive Bayes sınıflandırıcıları sınıflandırma problemleri için popüler bir seçimdir. Bunun da dahil birçok nedeni var:

  • "Zeitgeist" - yaklaşık on yıl önce spam filtrelerinin başarısından sonra yaygın bir farkındalık
  • Yazması kolay
  • Sınıflandırıcı model kurmak hızlı
  • Model, yeni bir eğitim verisi ile modeli yeniden oluşturmak zorunda kalmadan değiştirilebilir

Ancak, bunlar 'naif' - yani özelliklerin bağımsız olduğunu varsayıyorlar - bu, Maksimum Entropi sınıflandırıcıları (hesaplanması yavaş olan) gibi diğer sınıflandırıcılarla tezat oluşturuyor.

Bağımsızlık varsayımı genellikle kabul edilemez ve spam filtresi örneği de dahil olmak üzere pek çok (çoğu) durumda, bu sadece yanlıştır.

Öyleyse neden Naive Bayes Sınıflandırıcısı, bu tür uygulamalarda, özellikler birbirinden bağımsız olmasa bile, hala çok iyi performans gösteriyor?

Yanıtlar:


23

Bu yazı , özelliklerin bağımsız olduğunda değil, aynı zamanda özelliklerin birbirleriyle olan bağımlılıklarının da özellikler arasında benzer olduğu durumlarda, bölmelerin iyi olduğunu kanıtlamıştır (matematiği izleyemem).

Bu yazıda, saf Bayes'in üstün sınıflandırma performansı hakkında yeni bir açıklama öneriyoruz. Temel olarak bağımlılık dağılımının; yani, bir düğümün yerel bağımlılığının her bir sınıfa eşit veya eşit olmayan bir şekilde dağıldığı ve tüm düğümlerin yerel bağımlılıklarının tutarlı bir şekilde (belirli bir sınıflandırmayı destekleyen) veya tutarsız bir şekilde (birbirini iptal etme) nasıl çalıştığı çok önemli bir rol oynar. Bu nedenle, özellikler arasındaki bağımlılıklar ne kadar güçlü olursa olsun, bağımlılıklar sınıflarda eşit bir şekilde dağılırsa veya bağımlılıklar birbirlerini iptal ederse, saf Bayes hala en uygun olabilir


1
Nitel olarak, bu mantıklı. Bağımlı özellikler ağırlıklandırma ile sonuçlanacaktır - bu nedenle eşit olmayan bir dağıtım veya iptal eden bir dağıtım bu ağırlığı iptal edecektir. Ancak, "lop-taraflı" bağımlılıklar muhtemelen hala düşük performans gösterecek? Spam örneği için sanırım, + spam özellikleri için çok fazla bağımlılık beklemeliyiz, ancak genel durumda -spam özellikleri olmamalıdır. Ancak, bir kişi belirli bir konuda çok sayıda meşru e-posta alabilir, bu durumda + spam özelliklerini dengeleyecek çok sayıda bağımlı özellik olabilir.
Şubat'ta

3
Bu makaleyi de öneriyorum: cs.stanford.edu/people/ang/papers/…
Dov

25

Çoğu Makine Öğrenimi problemi kolaydır!

Örneğin John Langford'un blogunda görün . Gerçekten söylediği şey, ML'nin sorunları kolaylaştırmasıdır ve bu, araştırmacılara, çok çeşitli basit sorunlara yöntemler uygulamaya çalışmaları veya daha zor problemlere saldırmaları gerekip gerekmediği konusunda bir sorun sunar. Ancak yan ürün, birçok sorun için verilerin Doğrusal olarak Ayrılabilir (veya en azından neredeyse) olmasıdır, bu durumda herhangi bir doğrusal sınıflandırıcı iyi çalışacaktır! Orijinal spam filtre kağıdının yazarları Naive Bayes'i kullanmayı seçtiler, ancak bir Perceptron, SVM, Fisher Discriminant Analizi, Logistic Regression, AdaBoost veya muhtemelen çalışmış olabileceği başka bir şey kullandılar.

Algoritmanın kodlanmasının nispeten kolay olması gerçeği yardımcı olur. Örneğin, SVM'yi kodlamak için ya bir QP Çözücüsüne sahip olmanız ya da önemsiz bir iş olmayan SMO algoritmasını kodlamanız gerekir . Elbette libsvm'yi indirebilirsiniz, ancak ilk günlerde bu seçenek mevcut değildi. Bununla birlikte, kodlaması kolay olan (ve yukarıda da belirtildiği gibi artımlı güncellemelere izin veren) birçok basit algoritma (yukarıda belirtilen Perceptron dahil) vardır.

Zorlu doğrusal olmayan problemler için doğrusal olmayanlarla başa çıkabilecek yöntemlere elbette ihtiyaç vardır. Ancak Çekirdek Metodları kullanıldığında bu bile basit bir görev olabilir . Genellikle soru, “Hangi sınıflandırıcı kullanmalıyım” yerine “Verilerim için etkili bir çekirdek işlevi nasıl tasarlarım?” Olur.


Sanırım "kolay" belki de görecelidir, ancak evet, spam sınıflandırması çoğu insanın 12 yıl veya daha önce olduğunu sandığımdan daha kolay. Çekirdek Metodları hızlı ve basit bir sınıflandırıcı üretmeye yönelik bir yaklaşım olabilir, ancak “Verilerim için nasıl etkili bir çekirdek işlevi tasarlarım”, bazı makine öğrenmelerinin “insan öğrenmesi” haline geldiği görülüyor (yani, verileri daha iyi anlamak aralarındaki ilişkiler)?
winwaed

1
Evet görecelidir ve ayrıca birçok sorun vardır, bu yüzden hala çok fazla zor var! Ve bence, ML ile insan öğrenme arasındaki sınır daima bulanıktır ... eğer bazı süper-fantezi olasılıklı bir model yaratıyorsanız, aynı şeyi yapıyorsunuz. Eski NFLT bize bir yöntemin tüm problemleri çözemediğini, ancak bu yöntemin karmaşık olduğunu söyler, bu yüzden her zaman insanlara model / çekirdek / algoritma tasarlamak için ya da verilerinizden daha fazlasını elde etmek için ne gerekiyorsa ihtiyacımız olacak.
tdc

doğru - kesinlikle bulanık bir çizgi!
winwaed

1
Neden aşağı oy? Yorum yapmak ister misin?
tdc,

7

Bölümleme sınıflandırma araçlarında Naive Bayesian Sınıflandırıcılarını yoğun bir şekilde kullandıktan sonra deneyimim, tüm tahmin değişkenlerinin mevcut olduğu durumlarda NBC'nin doğrusal ayırıcı ve CART / CHAID ile kesin olarak karşılaştırılabilir olduğunu gösteren yayınlanmış kağıtlarla tutarlıdır.

(Hem en doğru olanı olarak doğru çözümü tahmin etmenin hem de "isabet oranı" nı doğruluğu ile kalibrasyonun yanı sıra,% 75'lik bir üyelik tahmini, vakaların% 70 - 80'inde haklıdır.)

Benim iki kuruş NBC'nin çok iyi çalışması çünkü:

  • Tahmin değişkenleri arasındaki karşılıklı korelasyon tahmin edilebileceği kadar güçlü değildir (0.05 - 0.15 arasındaki karşılıklı bilgi puanları tipiktir)
  • NBC, ayrık polimerik değişkenleri iyi idare edebilir, bunları kabaca dikotomize etmemizi veya sıralı değişkenleri kardinal olarak ele almamızı gerektirmez.
  • NBC tüm değişkenleri aynı anda kullanır, CART / CHAID ise sadece birkaçını kullanır.

Ve o zaman tüm değişkenler gözlemlenir. NBC'nin paketten gerçekten uzaklaşmasını sağlayan şey, bir veya daha fazla yordayıcı değişken eksik veya gözlenmediyken incelikle bozunmasıdır. CART / CHAID ve lineer ayırma analizi bu durumda düz durur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.