Beklenti Maksimizasyonu algoritmasının yerel bir optimum olanla birleşmesi neden garanti edilir?


24

EM algoritmasının birkaç açıklamasını okudum (örneğin, Bishop'un Örüntü Tanıma ve Makine Öğrenmesi'nden ve Roger ve Gerolami Makine Öğrenimi İlk Kursundan). EM'in türetilmesi tamam, anlıyorum. Ayrıca algoritmanın neden bir şeyi kapsadığını da anlıyorum: her adımda sonucu iyileştiririz ve olasılık 1.0 ile sınırlanır, bu nedenle basit bir gerçeği kullanarak (eğer bir fonksiyon artarsa ​​ve o zaman birleşirse) algoritmanın yakınsadığını biliriz Bazı çözümler.

Ancak bunun yerel bir asgari olduğunu nasıl biliyoruz? Her adımda sadece bir koordinat (gizli değişken veya parametreler) düşünüyoruz, bu nedenle yerel minimumun her iki koordinatta aynı anda hareket etmesini gerektiren bir şeyi özleyebiliriz.

Bunun, EM'nin bir örneği olduğu genel tepe tırmanma algoritmaları sınıfına benzer bir sorun olduğuna inanıyorum. Yani genel bir tepe tırmanma algoritması için f (x, y) = x * y işlevi için bu problemimiz var. Eğer (0, 0) noktasından başlarsak, o zaman sadece aynı anda her iki yönü de göz önüne alarak 0 değerinden yukarı doğru hareket edebiliriz.


3
Olasılık sadece sabit farklar için sınırlıdır. Yani binom durumunda, varyans ; ya da Gauss durumunda, varyansın bilinen olduğu varsayılırsa. Varyans bilinmiyorsa ve tahmin edilmesi gerekiyorsa, ihtimal sınırlandırılmamıştır. Ayrıca, EM algoritmasında, en azından sık istatistikçiler için, eksiklerin ve parametrelerin genel bir ayrımı vardır, ancak yüzeyler aslında eyerlere sahip olabilir. p(1p)
StasK

@Stask Olabilirliğin, genellikle sabit sapmalarla bile sınırlı olduğundan emin değilim. Belirli bir aile ile mi kısıtlanıyorsunuz?
Glen_b -Reinstate Monica

Yanıtlar:


27

EM'in yerel bir asgari seviyeye yaklaşması garanti edilmez. Parametrelere göre sadece sıfır gradyanlı bir noktaya yakınlaştırma garanti edilir. Böylece gerçekten eyer noktalarında sıkışıp kalabilir.


1
Örnekler için, bkz. S. 20 ve 38 , s. 85 - Amazon okuyucusunda "eyer noktasını" deneyin.
StasK

13

Her şeyden önce, EM'in yerel bir minine , yerel bir maks'a veya olasılık fonksiyonunun bir eyer noktasına yaklaştırılması mümkündür . Daha doğrusu, Tom Minka'nın belirttiği gibi, EM'in sıfır gradyanlı bir noktaya yaklaşması garanti edilir .

Bunu görmenin iki yolunu düşünebilirim; ilk görüş saf sezgidir ve ikinci görüş resmi bir kanıtın taslağıdır. İlk önce, EM'in nasıl çalıştığını çok kısaca açıklayacağım:

Beklenti en (EM) yineleme ardışık bir sınır optimizasyon tekniğidir , ilk olarak bir (alt) bağlı yapı olabilirlik fonksiyonu ve daha sonra yeni bir solüsyon elde etmek için bağlanan en üst düzeye çıkarmak ve yeni çözüm kadar devam edin.tbt(θ)L(θ)θt=argmaxθbt(θ)

Degrade yükseliş olarak beklenti maksimizasyonu

Her tekrarında , EM bağlı gerektirir olabilirlik fonksiyonu temas önceki iterasyondan çözümüne yani kendi gradyanlar çok aynıdır belirtir; bu . Öyleyse, EM en az degrade yükselme kadar iyidir, çünkü en az . Diğer bir deyişle:tbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

Eğer EM yakınsak için o gradyan çıkış için bir yakınsak noktası fazla ve EM tatmin herhangi bir özellik (sıfır gradyan değeri de dahil) gradyan çıkış çözümler arasında paylaşılan.θθ

Resmi bir kanıtın taslağı

Biri, sınırlar ile olasılık işlevi arasındaki farkın sıfıra yakınlaştığını gösterebilir; bu Biri, sınırın derecesinin de olabilirlik fonksiyonunun derecesine yakınsadığını ispatlayabilir; bu: Çünkü ve ve EM kullanılan bağlar, türevlenebilir olduğu ve , biz bu ve bu nedenle, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)bt(θt)=0limtL(θt)=0
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.