Değişken Bayes ve EM arasındaki ilişki


26

Bir yerde Değişken Bayes yönteminin EM algoritmasının bir genellemesi olduğunu okudum. Aslında, algoritmaların yinelemeli kısımları çok benzer. EM algoritmasının Variational Bayes'ın özel bir sürümü olup olmadığını test etmek için aşağıdakileri denedim:

  1. Y veri, gizli değişkenlerin toplanması ve parametrelerdir. Varyasyonel . Nerede ler daha basit, uysal dağılımları vardır.Θ P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) QXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. EM algoritması bir MAP noktası tahmini bulduğundan, şöyle bir Delta İşlevi kullanırsam Varyasyonel Bayes'in EM'ye yaklaşabileceğini düşündüm: . , genellikle yapılan parametrelerin ilk tahminidir.Θ 1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Tüm verilir, KL Uyumsuzluğu minimize formülü ile bulunan Yukarıdaki formül basitleştiriyor , bu adım Beklenti adımının eşdeğeri gibi görünüyor EM algoritmasının!Q 1 X ( X ) Q 1 X ( X ) = exp ( E δ Θ 1 [ ln P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) Q, 1 x (X)=P(x|Θ1,Y)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Ancak, Maksimizasyon adımını bunun devamı olarak çıkaramıyorum. Bir sonraki adımda ve Variational Bayes yineleme kuralına göre hesaplamamız gerekiyor :QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

VB ve EM algoritmaları bu şekilde gerçekten bağlanmış mı? EM'yi Varyasyonel Bayes'in özel bir hali olarak nasıl türetebiliriz, yaklaşımım doğru mu?


EM algoritmasının bir MAP tahmini bulduğunu nerede okudunuz? Varyasyonel çıkarım ile EM arasındaki ilişki , bu makalede Neal ve Hinton (1998) tarafından sunulan EM'in görüşünü anladığınızda netleşecektir . Ayrıca cevabımı burada gör .
Lucas,

EM algoritmasını bu makalede açıklandığı şekilde öğrendim, sanırım alt sınır maksimizasyon sorunu olarak görülüyor. Jensen eşitliği ve çeşitlilik hesabı kullanılarak, beklenti adımında nin için alt sınırı maksimize ettiği ve maksimizasyon adımında nın bulunmadığı dağılım olduğu görülmektedir. , bu alt sınırda bir maksimumdur. Yani, bu Değişken Bayes'e benzer. (Ve yerel bir maksimum değerin yerel maksimum Θ t Θ t + 1 = bir r gr m birP(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
değerine yakınsayar

1
Özür dilerim, sorunuza yeterince dikkat etmedim. yi hesaplamak için maksimizasyon adımınızın sadece herhangi bir dağıtıma izin verirseniz, yani sadece çarpanlara ayırma varsayımını yaparsanız geçerli olacağını düşünüyorum. Ancak ek olarak, bir delta dağıtımı olduğunu varsaydınız . Alt sınırı parametresi olan göre açıkça maksimize etmeyi deneyin . Q 2 Θ Θ 2 Q 2 Θ ( Θ ) = δ Θ 2 ( Θ )QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Lucas,

Sunumun 21. sayfasında bulundu: cs.cmu.edu/~tom/10-702/Zoubin-702.pdf , Dirac işlevi kullanılarak benzer şekilde EM ve VB karşılaştırması da gösterildi. Ancak VB'nin EM'ye nasıl azaldığı gösterilmemiştir.
Ufuk Can Bicici

Yanıtlar:


20

Yaklaşımın doğru. EM, için yaklaşık arka bir nokta kütlesi olarak sınırlandırıldığı kısıtlaması altında VB'ye eşdeğerdir . (Bu, Bayesian Veri Analizinin 337. sayfasında kanıt olmadan belirtilmiştir .) Bu nokta kütlesinin bilinmeyen konumu olsun : VB Aşağıdaki KL farklılığını en aza indirin: üzerindeki minimum E-adımını verir ve üzerindeki minimum M-adımını verir. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Elbette, eğer KL farklılıklarını gerçekten değerlendirmek isteseydiniz, sonsuz olurdu. Ancak delta fonksiyonunun bir limit olduğunu düşünüyorsanız, bu bir problem değildir.


Teknik olarak, wrt , MAP-EM'nin M basamağına karşılık gelir (önceki ). - VBEM makalesinin 3.1 bölümü Θ P( Θ )EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.