Neden kimse Bayes multinomial Naive Bayes sınıflandırıcısını kullanmıyor?


15

Yani (denetimsiz) metin modellemesinde, Latent Dirichlet Ataması (LDA) Olasılıksal Gizli Semantik Analiz'in (PLSA) Bayesli bir versiyonudur. Esasen, LDA = PLSA + Dirichlet parametrelerine göre önceden. Anladığım kadarıyla LDA artık referans algoritması ve çeşitli paketlerde uygulanmakta, PLSA artık kullanılmamalıdır.

Ancak (denetlenen) metin kategorizasyonunda, çok şeyi aynı Naif Bayes sınıflandırıcısı için aynı şeyi yapabilir ve parametrelerin önüne bir Dirichlet koyabiliriz. Ama kimsenin bunu yaptığını gördüğümü sanmıyorum ve multinomial Naive Bayes'in "nokta tahmini" versiyonu çoğu pakette uygulanan versiyon gibi görünüyor. Bunun için bir sebep var mı?

Yanıtlar:


7

İşte Multinomial Naive Bayes (MNB) sınıflandırıcısının bazı 'sistemik' eksikliklerini ele alan güzel bir çalışma. Fikir şu ki, bazı ince ayarlarla MNB performansını artırabilirsiniz. Ve (tek tip) Dirichlet önceliklerini kullanarak bahsediyorlar.

Genel olarak MNB ile ilgileniyorsanız ve henüz bu makaleyi okumadıysanız, kesinlikle tavsiye ederim.

Aynı kişi / kişiler tarafından eşlik eden bir yüksek lisans tezi buldum ancak henüz kendim okumadım. Kontrol edebilirsiniz.


İkinci bağlantı öldü - muhtemelen dspace.mit.edu/handle/1721.1/7074 güncel versiyon
beldaz

5

Çoğu NB uygulamasının, koşullu olasılıkların , Bayesian NB sınıflandırıcısına (önceden belirli bir Dirichlet ile) bir MAP çözümü veren Laplace düzeltmesi . @Zhubarb (+1) 'in belirttiği gibi, NB sınıflandırıcılarının Bayesian tedavileri zaten türetilmiş ve uygulanmıştır (Rennie'nin tezi / makaleleri okumaya değer). Bununla birlikte, NB'nin bağımsızlık varsayımı neredeyse her zaman yanlıştır, bu durumda modeli bu varsayıma (tam bir Bayes tedavisi yoluyla) daha güçlü bir şekilde bağımlı hale getirmek iyi bir şey olmayabilir.


0

Açıkladığınız şeyin doğru olduğuna inanmıyorum. LDA ve MNB için olasılık modelleri farklıdır.

İkisi arasındaki temel fark, LDA için üretken modelde, bir kelime çizildiğinde, önce o kelime için bir konunun ve sonra o konu dağılımından bir kelimenin seçilmesidir. Bir belgedeki her kelime farklı bir konudan çizilebilir.

MNB için üretken modelde, belgeye bir sınıf atanır ve bu belgedeki tüm kelimeler o sınıfın (aynı) dağılımından çizilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.