Yeni başlayanlar için, Naive Bayes muhtemelen burada uygun değildir. Girdiler arasında bağımsızlığı varsayar (dolayısıyla "Naif") ve bir cümledeki kelimeler çok bağımlıdır.
Ancak, denemenizi başlatmak için gerçekten bir algoritma olarak NB ile çalıştırmak istediğinizi varsayarsak, dikkate alacağım iki seçenek var:
Nankör: Çok sayıda NB sınıflandırıcısı
Bu alternatif bir yaklaşım olacaktır. Girdilerin vektörü olarak gözlenen tüm kelimeleri bir araya getir. Çıktılarınız vektörü olarak gözlenen tüm etiketleri bir grup oluşturun. Birden çok çıktıya sahip bir NB sınıflandırıcısı, her biri bir çıktıya sahip birden fazla NB sınıflandırıcısına sahip olmakla eşdeğerdir (bu nedenle, hangi yazılım çerçevesini kullanırsanız kullanın hangisi daha kolaysa). Her öğeye, verilen bir girdinin (bir kelime) bir kelime 1
varsa ve bu kelime yoksa bir eğitim örneği olarak davranın 0
. Çıktı için aynı ikili şemayı kullanın.
Bu kaba, NB Sınıflandırıcı'nın verilerinize uygulanmasını zorlar ve size bırakacağınız çok büyük sınıflandırıcılar benim için hala haivng ile anlam bulmanızı sağlar.
Daha Zarif: Verilerinizi işleyin
Bu, bir çok sınıflı NB Sınıflandırıcısı ile çalıştırmak istiyorsanız önereceğim yaklaşımdır.
Buradaki amacınız, her bir etiket grubunu tek bir sınıfa nasıl eşleyeceğinizi bulmaktır. Eminim bir tür kümelenme şeması veya ağ analizi vardır (belki ["ünlü"] [[cinayet ”] ile bağlantılı olabilir. Etiketleri düğüm olarak ve verilen iki etiketi birbirine bağlantı olarak ele alırsanız, topluluk algılama algoritmalarına (başlamak istediğim yer) bakmak istersiniz. Ancak, yalnızca bir şeyin çalışmasını istiyorsanız, bir etiket listesini yalnızca veri kümenizde en sık görülen etikete dönüştüren bir tür hack yeterli olacaktır.
Bu yöntem, verilerinizi temizleme işini önden yükler ve NB Sınıflandırıcı'nın çıktısının daha kolay anlaşılmasını sağlar.