Naive Bayes modelinde yumuşatma


13

Bir Naif Bayes öngörüsü bu formülü kullanarak tahminlerini yapar:

P(Y=y|X=x)=αP(Y=y)iP(Xi=xi|Y=y)

burada normalleştirici bir faktördür. Bu , verilerden P ( X i = x i | Y = y ) parametrelerinin tahmin edilmesini gerektirir . Bunu k -smoothing ile yaparsak, tahmini alırızαP(Xi=xi|Y=y)k

P^(Xi=xi|Y=y)=#{Xi=xi,Y=y}+k#{Y=y}+nik

burada X i için olası değer vardır . Bununla iyiyim. Ancak, daha önce,niXi

P^(Y=y)=#{Y=y}N

burada veri setinde örnek vardır . Neden öncekileri de düzeltmiyoruz? Daha doğrusu, do biz önce pürüzsüz? Eğer öyleyse, hangi düzeltme parametresini seçiyoruz? Farklı bir hesaplama yaptığımız için k'yi seçmek de biraz aptalca görünüyor . Bir fikir birliği var mı? Yoksa çok önemli değil mi?Nk

Yanıtlar:


5

#{Xi=xi|Y=y}=0P(Y=y|X=x)=0

Bu, örneğin, eğitim verilerinizde olmayan veya belirli bir sınıfta görünmeyen bir kelimeyle karşılaştığınız metin belgelerini sınıflandırdığınızda olur.

P(Y=y)

k


1
Genel olarak düzgünleştirmenin nedeni, verilerin fazla takılmasını önlemektir. Bir sınıfın sayısının sıfır olduğu durum sadece belirli bir fazlalık durumudur (bu özellikle kötüdür). Her sınıf gözlemlendiğinde olasılıkları düzeltmek isteyebilirsiniz. Görünen asimetri tarafından rahatsız olduğumu düşünüyorum - Laplace yumuşatma veri kümenizde ekstra gözlemler olduğunu varsayar. Öncekine uyurken neden bu gözlemleri görmezden geliyorsun?
Chris Taylor

P(Y=y)P(Xi=xi|Y=y)

"bu durum meydana gelmemelidir. Eğer böyle bir şey olursa, bu, eğitim verilerinde bile görünmeyen sınıflara nesne atamaya çalıştığınız anlamına gelir". Ahh ... bir sınıflandırıcı daha önce hiç görmediği bir sınıfa nasıl bir nesne atayacaktır (yani, eğitim verilerinde değil)?
Jemenake

@Jemenake Sorun normal olarak Sıfır Atış öğrenme olarak adlandırılır, örneğin bkz. Anlamsal Çıktı Kodları ile Sıfır Atış Öğrenme
alto

eğitim veri setini kullanarak modeli eğittiğimizde, eğitim veri setinde yer alan kelimeleri kullanarak bir kelime haznesi oluşturabiliriz, neden test setinde tahminler yaparken neden sadece kelime hazinesinde olmayan yeni kelimeleri kaldırmıyorsunuz?
avokado
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.