Beklenti maksimizasyonu ile ilgili açıklayıcı bulduğum yazı Bayesian K-Means, Welling ve Kurihara'nın "Maksimizasyon-Beklenti" Algoritması (pdf) .
Varsayalım x gözlemleri, z gizli rasgele değişkenleri ve toplam θ parametresi olan bir olasılıksal model var . Bize bir veri kümesi D verilir ve (daha yüksek güçler tarafından) p ( z , θ | D ) oluşturmaya zorlanır .p(x,z,θ)xzθDp(z,θ|D)
1. Gibbs örneklemesi
Örnekleme ile değerini tahmin edebiliriz . Gibbs örneklemesi, p ( z , θ | D ) dönüşümlü olarak verir:p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Varyasyonel Bayes
Bunun yerine, bir ve q ( z ) dağılımı oluşturmayı deneyebilir ve p ( θ , z | D ) sonrasındaki dağılımımızla farkı en aza indirebiliriz . Dağılımlar arasındaki fark, KL-diverjans için uygun bir fantezi ismine sahiptir. En aza indirmek için K L [ k ( θ ) q ( z ) | | p ( θ , z | D ) ] güncelliyoruz:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Beklenti-Maksimizasyon
Her ikisi için de tam teşekküllü olasılık dağılımları ile gelip ve θ aşırı düşünülebilir. Bunun yerine neden bunlardan biri için bir nokta tahmini düşünmüyoruz ve diğerini güzel ve nüanslı tutuyoruz. EM'de θ parametresi , tam bir dağılımın değeri olmayan olarak belirlenir ve MAP (Maksimum A Posteriori) değerine, θ ∗ ayarlanır .zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Burada aslında daha iyi bir gösterim olacaktır: argmax operatörü birden fazla değer döndürebilir. Ama nitpick yapmayalım. Varyasyon Bayes karşılaştırıldığında için düzeltme görüyoruz günlüğüne tarafından exp bu artık gerekli değildir, bu yüzden sonuç değişmez.θ∗∈argmaxlogexp
4. Maksimizasyon-Beklenti
Tedavi için hiçbir neden yoktur şımarık bir çocuk gibi. Biz sadece yanı nokta tahminleri kullanabilirsiniz z * Bizim gizli değişkenler için ve parametreler vermek İçeride ISTV melerin RWMAIWi'nin tam dağılımının lüks.zz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Eğer gizli değişkenlerimiz gösterge değişkenleri ise, aniden küme sayısı üzerinde çıkarım yapmak için hesaplamalı olarak ucuz bir yöntemimiz vardır. Başka bir deyişle: model seçimi (veya otomatik alaka algılaması veya başka bir fantezi adı hayal edin).z
5. Yinelenen koşullu modlar
θz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
To see how Maximization-Expectation plays out I highly recommend the article. In my opinion, the strength of this article is however not the application to a k-means alternative, but this lucid and concise exposition of approximation.