Naive Bayes'te log-sum-exp numarasının nasıl çalıştığına örnek

Birçok yerde (örneğin, burada ve burada ) log-sum-exp hile hakkında okudum ama özellikle Naive Bayes sınıflandırıcı (örneğin ayrık özellikleri ve iki sınıf ile) nasıl uygulandığına dair bir örnek görmedim

Bu hileyi kullanarak sayısal taşma problemini tam olarak nasıl önleyebiliriz?

naive-bayes underflow

— alay etmek
kaynak

Naif Bayes için mutlaka açık olmasa da, burada kullanımının birkaç örneği vardır . Ancak, bu önemli değil, çünkü hile fikri oldukça basit ve kolayca uyarlanabilir.

— Glen_b -Reinstate Monica

Problemin taşmadan daha düşük olması muhtemeldir.

— Henry

Underflow'da bir arama yapmayı denemenizi ve ardından sorunuzu, daha önce ele alınmamış olanları daha spesifik olarak ele alacak şekilde güncellemenizi öneririm .

— Glen_b

Ayrıca açıklığa kavuşturabilir misiniz - bu Bernoulli model naif Bayes mi? belki başka bir şey?

— Glen_b-Monica

Buradaki örneğe bakın , hemen altta (günlükleri aldıkları 'Ayrıca Bkz.' 'Dan hemen önce; her iki tarafı da üstlenmek, ancak RHS'yi "olduğu gibi" bırakmak (günlüklerin toplamı olarak) günlük için bir örnek olacaktır. -sum-exp hile Bu size daha spesifik bir soru sormak için Naive Bayes kullanımıyla ilgili yeterli bilgi veriyor mu?

— Glen_b -Restate Monica

Yanıtlar:

Olarak

p (Y = C | x) = \frac{p (x | Y = C) p (Y = C)}{Σ_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}

$p(Y=C|\mathbf{x}) = \frac{p(\mathbf{x}|Y=C)p(Y=C)}{~\sum_{k=1}^{|C|}{}p(\mathbf{x}|Y=C_k)p(Y=C_k)}$

hem payda hem de pay çok küçük olabilir, çünkü 0'a yakın olabilir ve çoğunu birbirimizle çarparız. Düşük akışları önlemek için, payın günlüğünü alabilir, ancak payda için log-sum-exp hilesi kullanılmalıdır. $p(x_i \vert C_k)$

Daha spesifik olarak, yetersiz akışları önlemek için:

Biz sadece hangi sınıf bilerek önem veriyorsanız girişi büyük olasılıkla maksimum a posteriori (MAP) karar kuralı ile aittir biz log uygulamak gerekmez sum-exp hilesi, çünkü bu durumda paydayı hesaplamak zorunda değiliz . Pay için düşük akışları önlemek için günlük kaydı yapılabilir: $(\hat{y})$ $(\mathbf{x}=x_1, \dots, x_n)$ $log \left( p(\mathbf{x}|Y=C)p(Y=C) \right)$ . Daha spesifik olarak:

$\hat{y} = \underset{k \in {1, ..., | C |}}{argmax} p (C_{k} | x_{1}, ..., x_{n}) = \underset{k \in {1, ..., | C |}}{argmax} p (C_{k}) Π_{ben = 1}^{n} p (x_{ben} | C_{k})$ $\hat{y} = \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}}p(C_k \vert x_1, \dots, x_n) = \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \ p(C_k) \displaystyle\prod_{i=1}^n p(x_i \vert C_k)$
bu günlük alındıktan sonra olur:

\begin{aligned} \hat{y} & = \underset{k \in {1, ..., | C |}}{argmax} günlük (p (C_{k} | x_{1}, ..., x_{n})) \\ = \underset{k \in {1, ..., | C |}}{argmax} günlük (p (C_{k}) Π_{ben = 1}^{n} p (x_{ben} | C_{k})) \\ = \underset{k \in {1, ..., | C |}}{argmax} (günlük (p (C_{k})) + Σ_{ben = 1}^{n} günlük (p (x_{ben} | C_{k}))) \end{aligned}

$\begin{align} \hat{y} &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \log \left( p(C_k \vert x_1, \dots, x_n) \right)\\ &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \log \left( \ p(C_k) \displaystyle\prod_{i=1}^n p(x_i \vert C_k) \right) \\ &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \left( \log \left( p(C_k) \right) + \ \displaystyle\sum_{i=1}^n \log \left(p(x_i \vert C_k) \right) \right) \end{align}$

Sınıf olasılığı hesaplamak istiyorsak , paydayı hesaplamamız gerekecek: $p(Y=C|\mathbf{x})$

$\begin{aligned} \log (p (Y = C | x)) & = \log (\frac{p (x | Y = C) p (Y = C)}{\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}) \\ = \log (\underset{numerator}{\underset{⏟}{p (x | Y = C) p (Y = C)}}) - \log (\underset{denominator}{\underset{⏟}{\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}}) \end{aligned}$

Eleman $\log \left( ~\sum_{k=1}^{|C|}{}p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)\\$ Çünkü Yetersizlik edebilir çok küçük olabilir: o payında aynı konudur, ancak bu kez biz logaritma içine bir özet, sahip olduğu dönüştürerek gelen önler bize (0'a yakın) içine olabilir (negatif değil 0'a yakın artık, çünkü $p(x_i \vert C_k)$ $p(x_i \vert C_k)$ $\log \left(p(x_i \vert C_k) \right)$ $0 \leq p(x_i \vert C_k) \leq 1$ ). Bu sorunu atlatmak için, elde etmek için şunu kullanabiliriz: $p(x_i \vert C_k) = \exp \left( {\log \left(p(x_i \vert C_k) \right)} \right)$

$\log (\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})) = \log (\sum_{k = 1}^{| C |} \exp (\log (p (x | Y = C_{k}) p (Y = C_{k}))))$

Bu noktada yeni bir sorun ortaya çıkar: oldukça negatif olabilir, bu da 0'a çok yakın olabilir, yani taşma. Log-sum-exp hilesini burada kullanıyoruz : $\log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)$ $\exp \left( \log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right) \right)$

$\log \sum_{k} e^{a_{k}} = \log \sum_{k} e^{a_{k}} e^{A - A} = A + \log \sum_{k} e^{a_{k} - A}$

ile:
- , $a_k=\log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)$
- $A = \underset{k \in \{1, \dots, |C|\}} \max a_k.$
değişkeninin getirilmesinin taşmaları önlediğini görebiliriz . Örneğin : $A$ $k=2, a_1 = - 245, a_2 = - 255$
- $\exp \left(a_1\right) = \exp \left(- 245\right) =3.96143\times 10^{- 107}$
- $\exp \left(a_2\right) = \exp \left(- 255\right) =1.798486 \times 10^{-111}$
Log-sum-exp hilesi kullanarak, kaçınırız : $A=\max ( -245, -255 )=-245$ $\begin{align}\log \sum_k e^{a_k} &= \log \sum_k e^{a_k}e^{A-A} \\&= A+ \log\sum_k e^{a_k -A}\\ &= -245+ \log\sum_k e^{a_k +245}\\&= -245+ \log \left(e^{-245 +245}+e^{-255 +245}\right) \\&=-245+ \log \left(e^{0}+e^{-10}\right) \end{align}$

O zamandan beri Yetersizlik kaçınılması daha uzağa 0 daha ila veya . $e^{-10}$ $3.96143\times 10^{- 107}$ $1.798486 \times 10^{-111}$

— Franck Dernoncourt
kaynak

İki veritabanından hangisinin bir kelime grubu oluşturma olasılığının daha yüksek olduğunu tanımlamak istediğimizi varsayalım (örneğin, hangi kelime bu kelime grubunun daha olasıdır). Veritabanında koşullu kelimelerin bağımsızlığını varsayabiliriz (Naive Bayes varsayımı).

$a$ $e^{b_{t}}$

— Sid
kaynak

Biz de görebileceğiniz bu cevap Python en küçük sayıdır (sadece örneğin götürün) olduğu 5e-324nedeniyle ieee754 ve donanım neden sıra diğer diller için de geçerlidir.

In [2]: np.nextafter(0, 1)
Out[2]: 5e-324

Ve bundan daha küçük herhangi bir şamandıra 0'a yol açacaktır.

In [3]: np.nextafter(0, 1)/2
Out[3]: 0.0

Ve Naif Bayes'in işlevini with discrete features and two classesistediğiniz gibi görelim :

p (S = 1 | w_{1}, . . . w_{n}) = \frac{p (S = 1) Π_{ben = 1}^{n} p (w_{ben} | S = 1)}{\underset{s = {0, 1}}{Σ} p (S = s) Π_{ben = 1}^{n} p (w_{ben} | S = s)}

$p(S=1|w_1, ... w_n) = \frac{p(S=1) \prod_{i=1}^n p(\mathbf{w_i}|S=1)}{~\sum_{s=\{0, 1\}}p(S=s)\prod_{i=1}^n p(\mathbf{w_i}|S=s)}$

Bu işlevi, aşağıdaki basit bir NLP göreviyle başlatmama izin verin.

$S=1$ $S=0$ $n=5,000$ $w_i$ $p(w_i|S=1)$ $1-p(w_i|S=1)$

In [1]: import numpy as np
In [2]: from sklearn.naive_bayes import BernoulliNB
# let's train our model with 200 samples
In [3]: X = np.random.randint(2, size=(200, 5000))
In [4]: y = np.random.randint(2, size=(200, 1)).ravel()
In [5]: clf = BernoulliNB()
In [6]: model = clf.fit(X, y)

$p(S=s)\prod_{i=1}^n p(\mathbf{w_i}|S=s)$ $p(w_i|S=1)$ $1-p(w_i|S=1)$ $\prod_i^{5000}$ $5e^{-324}$ $0/0$

In [7]: (np.nextafter(0, 1)*2) / (np.nextafter(0, 1)*2)
Out[7]: 1.0

In [8]: (np.nextafter(0, 1)/2) / (np.nextafter(0, 1)/2)
/home/lerner/anaconda3/bin/ipython3:1: RuntimeWarning: invalid value encountered in double_scalars
  #!/home/lerner/anaconda3/bin/python
Out[8]: nan
In [9]: l_cpt = model.feature_log_prob_
In [10]: x = np.random.randint(2, size=(1, 5000))
In [11]: cls_lp = model.class_log_prior_
In [12]: probs = np.where(x, np.exp(l_cpt[1]), 1-np.exp(l_cpt[1]))
In [13]: np.exp(cls_lp[1]) * np.prod(probs)
Out[14]: 0.0

$p(S=1|w_1, ... w_n)$

Resmi uygulamayı sklearn'de görebiliyoruz :

jll = self._joint_log_likelihood(X)
# normalize by P(x) = P(f_1, ..., f_n)
log_prob_x = logsumexp(jll, axis=1)
return jll - np.atleast_2d(log_prob_x).T

Pay için olasılıkların ürününü log olabilirlik toplamına dönüştürdü ve payda için logsumexp'i scipy'de kullandı :

out = log(sum(exp(a - a_max), axis=0))
out += a_max

$\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $\log\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $max\_jll+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $max\_jll$

Ve işte türetme:

$\begin{align} \log \sum_{s=\{0,1\}} e^{jll_s} & = \log \sum_{s=\{0,1\}} e^{jll_s}e^{max\_jll-max\_jll} \\& = \log e ^{max\_jll}+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll} \\& = max\_jll+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll} \end{align}$

$max\_jll$ $a\_max$

$\log p(S=1|w_1, ... w_n)$

return jll - np.atleast_2d(log_prob_x).T

Umarım yardımcı olur.

Referans:
1. Bernoulli Naif Bayes Sınıflandırıcı
2. Naif Bayes ile Spam Filtreleme - Hangi Naif Bayes?

— Lerner Zhang
kaynak