Beklenti maksimizasyonu algoritması neden kullanılıyor?


22

Çok az bildiğim kadarıyla EM algoritması, olasılığın parametrelerine göre kısmi türevleri sıfıra ayarlarken maksimum olasılığını bulmak için kullanılabilir, analitik olarak çözülemeyen bir denklem seti verir. Ancak, bahsi geçen denklem setinin kısıtlaması bakımından maksimum bir olasılık bulmaya çalışmak için bazı sayısal teknikler kullanmak yerine EM algoritması gerekli midir?

Yanıtlar:


20

Soru meşru ve EM algoritmasını ilk öğrendiğimde aynı karışıklığı yaşadım.

Genel olarak, EM algoritması, modelin bazı değişkenlerinin "gizli" olduğu veya bilinmediği durumlarda bir parametrik modelin olabilirlik fonksiyonunu en üst düzeye çıkarmaya yarayan yinelemeli bir işlemi tanımlar.

Teoride, aynı amaç için, tüm parametreler için olabilirlik fonksiyonunun maksimum değerini sayısal olarak bulmak için bir minimizasyon algoritması kullanabilirsiniz. Ancak, gerçek durumda bu en aza indirme olacaktır:

  1. çok daha hesaplamalı olarak yoğun
  2. daha az sağlam

EM yönteminin çok yaygın bir uygulaması, bir karışım modelinin takılmasıdır. Bu durumda, her örneği “gizli” değişkenler olarak bileşenden birine atanan değişkeni göz önüne alarak problem büyük ölçüde basitleştirilmiştir.

Bir örneğe bakalım. Biz, N numunelerin sahip 2, normal dağılımların bir karışımından ekstre edilmiştir. EM olmadan parametreleri bulmak için en aza indirmeliyiz:s={si}

günlükL(x,θ)=-günlük[bir1exp((x-μ1)22σ12)+bir2exp((x-μ2)22σ22)]

Aksine, EM algoritmasını kullanarak, önce her numuneyi bir bileşene " E " atarız ( E adımında ) ve sonra her bileşenin ayrı ayrı ( M adımında ) sığdırır (veya olasılığını maksimize eder ). Bu örnekte M adımı bulmak için ağırlıklı ortalama basitçe μ k ve σ k . Bu iki adımı yinelemek, en aza indirmenin daha basit ve daha sağlam bir yoludur - log L ( x , θ ) .μkσk-günlükL(x,θ)


12

Bazı sayısal teknikler kullanmak yerine EM'ye ihtiyaç duyulmaz, çünkü EM de sayısal bir yöntemdir. Bu yüzden Newton-Raphson'un yerine geçmiyor. EM, veri matrisinizde eksik değerler olduğunda özel durum içindir. Örnek düşünün koşullu bir yoğunluğa sahiptir f X | Θ ( x | θ ) . O zaman bunun log olasılığı: l ( θ ; X ) = l o g f X | ΘX=(X1,...,Xn)fX|Θ(x|θ) Artık tam bir veri yoksa varsayalım öyle ki set X gözlenen veri oluşur Y ve eksik (veya latent) değişkenler Z , öyle ki X = ( Y , Z ) . Daha sonra, gözlemlenen veriler için log olasılığı, l o b s ( θ , Y ) = l o g f X | Θ ( Y , z | θ ) ν z (

l(θ;X)=lOgfX|Θ(X|θ)
XYZX=(Y,Z) Genel olarak bu integrali doğrudan hesaplayamazsınız ve l o b s ( θ , Y ) için kapalı formlu bir çözüm alamazsınız. Bu amaçla EM yöntemini kullanırsınız. Ben kereyinelenen iki adım vardır. Bu ( i + 1 ) t h adımında, bunlar Q ( θ | θ ( i ) ) = E θ ( i ) [ l ( comp
lObs(θ,Y)=lOgfX|Θ(Y,z|θ)νz(dz)
lObs(θ,Y)ben(ben+1)th burada θ ( i ) bir tahmindir İçeride ISTV melerin RWMAIWi'nin içinde ı t h adımında. Ardından, Q ( θ | θ ( i ) ) ' yi θ vemaksimuma getirdiğiniz büyütme adımını hesaplayınve θ ( i + 1 ) = m a x Q ( θ | θ i ) olarak ayarlayın
S(θ|θ(ben))=Eθ(ben)[l(θ;X|Y]
θ(ben)ΘbenthS(θ|θ(ben))θθ(ben+1)=mbirxS(θ|θben). Daha sonra, yöntem sizin tahmininiz olacak bir değere yakınlaşana kadar bu adımları tekrarlayın.

Metot hakkında daha fazla bilgiye ihtiyacınız olursa, özellikleri, provaları veya uygulamaları sadece ilgili Wiki makalesine bakınız.


1
+1 ... EM, sadece eksik değerler için değil.
Glen_b -Reinstate Monica

@Andy: Eksik veri durumu göz önüne alındığında bile, kısmi türevlerin sıfır olduğu bir noktayı bulmak için neden genel sayısal yöntemler kullanıldığını anlamadım.
user782220

Teşekkürler Glen, bunu sadece eksik değerler / gizli değişkenler bağlamında biliyordum. @ user782220: log olabilirlik türevinin kapalı bir form çözümüne sahip olamadığınızda, türevi sıfıra eşit olarak ayarlamak parametrenizi tanımlamaz. Bu nedenle bu durumda sayısal yöntemler kullanıyorsunuz. Bir açıklama ve bir örnek için buradaki derse bakınız: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy,

1

EM , söz konusu modelde verilen veri kümesinin olasılığını en üst düzeye çıkaran bir modelin parametrelerini doğrudan hesaplamak çoğu zaman olanaksız veya imkansız olduğundan kullanılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.