Beklenti Maksimizasyon Açıklama

EM algoritması ile ilgili çok faydalı bir eğitim buldum .

Örnek ve öğretici resim sadece parlak.

resim açıklamasını buraya girin

Olasılıkların hesaplanması ile ilgili soru Beklenti maksimizasyonu nasıl çalışır?

Öğreticide açıklanan teorinin örneğe nasıl bağlanacağıyla ilgili başka bir sorum var.

E aşaması sırasında, EM bir işlev seçer bu alt sınır , her yerde, ve bunlar için . $g_t$ $\log P(x;\Theta)$ $g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)})$

Yani ve her yineleme için farklı olması gerektiği gibi. $g_t$

Buna ek olarak, örneğin ve sonra bunları uyguladığımız verilere ve . Hangi benim için karşı sezgisel görünüyor. Önceden bazı varsayımlarımız vardı, veriye uyguladık ve yeni varsayımlar aldık, böylece veriler bir şekilde varsayımları değiştirdi. Anlamıyorum neden için eşit olmadığını . $\hat{\Theta}_A^{(0)} = 0.6$ $\hat{\Theta}_B^{(0)} = 0.5$ $\hat{\Theta}_A^{(1)} = 0.71$ $\hat{\Theta}_B^{(1)} = 0.58$ $\hat{\Theta}^{(0)}$ $\hat{\Theta}^{(1)}$

Buna ek olarak, bu eğiticide Ek Not 1'i gördüğünüzde daha fazla soru ortaya çıkıyor . Örneğin bizim durumumuzda nedir . olduğunda eşitsizliğin neden sıkı olduğu açık değil $Q(z)$ $Q(z)=P(z|x;\Theta)$

Teşekkür ederim.

— user16168
kaynak

Bu notları , tamamlayıcı malzemede neler olup bittiğini anlamada çok yararlı buldum .

Bu soruları süreklilik için biraz sıra dışı cevap vereceğim.

Birincisi: neden bu

$\theta^{(0)} \ne \theta^{(1)}$

Bunun nedeni, , değerine eşit veya daha az olacağı garanti edilecek şekilde seçilmesidir 2, ilk tahminimizin . Önceki varsayımlarımız mükemmel ilk tahminler olsaydı, doğru olur ve değişmezdi. Ancak, oluşturulan fonksiyonunda daha yüksek değerler bulabiliriz , bu nedenle parametresini bir sonraki yinelememizin orijinalimizden daha olası olduğu garanti edilir. $g_0$ $\log(P(x;\theta))$ $\theta^{(0)}$ $\theta^{(1)}$ $g_0$ $\theta$

İkincisi: eşitsizlik neden

Q (z) = P (z | x; θ)

$Q(z) = P(z|x;\theta)$

Dipnotlarda bunun hakkında bir ipucu var,

eşitlik ancak ve ancak rastgele değişken olasılık 1 ile sabit ise (yani, ) $y=E[y]$

seçimimizin sabit hale getirdiğini ima etmek . Bunu görmek için şunu göz önünde bulundurun: $Q$ $\frac{P(x, z; \theta)}{Q(z)}$

P (x, z; θ) = P (z | x; θ) P (x; θ)

$P(x, z ; \theta) = P(z | x; \theta) P(x; \theta)$

bu bizim fraksiyonumuzu yapar

\frac{P (z | x; θ) P (x; θ)}{P (z | x; θ)} = P (x; θ)

$\frac{P(z | x; \theta) P(x; \theta)}{P(z|x;\theta)} = P(x; \theta)$

Yani nedir ve sabittir? Bu terimin bağımsız (sabit) olduğu üzerinden toplamları hesapladığımızı düşünün . Bunu olarak temsil edelim ve bu denklem şöyle olur: $P(x; \theta)$ $z$ $C$

\log (\sum_{z} Q (z) C) \geq \sum_{z} Q (z) \log (C)

$\log{\big( \sum_z{Q(z)C} \big)} \ge \sum_z{Q(z)\log(C)}$

buradan hızlı bir şekilde 2 tarafın eşit olduğunu görebiliriz, çünkü bir sabitin beklentisi ağırlıklar ne olursa olsun sabit olacaktır ( ) $Q(z)$

Son olarak: $g_t$

Bağladığım notlarda verilen cevap, ek notlardaki cevaptan biraz farklıdır, ancak sadece bir sabitle farklılık gösterirler ve bunu maksimize ederiz, bu yüzden sonuç değildir. Notlardaki (türetme ile):

g_{t} (θ) = \log (P (x | θ^{(t)})) + \sum_{z} P (z | x; θ^{(t)}) \log (\frac{P (x | z; θ) P (z | θ)}{P (z | x; θ^{(t)}) P (x | θ^{(t)})})

$g_t(\theta) = \log(P(x|\theta^{(t)})) + \sum_z{P(z|x;\theta^{(t)})\log{\big( \frac{P(x|z;\theta)P(z|\theta)}{P(z|x;\theta^{(t)})P(x|\theta^{(t)})} \big)}}$

Bu karmaşık formül, ek notlarda uzun süredir konuşulmamıştır, çünkü muhtemelen bu terimlerin çoğu, maksimize ettiğimizde atılan sabitler olacaktır. Buraya ilk etapta nasıl ulaştığımızla ilgileniyorsanız, bağlantı verdiğim notları tavsiye ederim.

İkinci soruya verilen cevaba benzer bir argüman kullanarak, günlükteki terim için eşittir, böylece toplam terim kaybolur ve beklendiği gibi. $g_t(\theta^{(t)})$ $g_t(\theta^{(t)}) = \log P(x|\theta^{(t)})$

— mikrofon
kaynak