İki değişkenli karışım dağılımıyla EM Algoritmasından yakınsama

Bir veri kümesinin maksimum olabilirlik tahmincisini bulmak istediğim bir karışım modelim var $x$ ve kısmen gözlenen bir veri kümesi . Beklenen verilen negatif log olasılığını en aza indirmek için E adımını ( verilen beklentisini ve mevcut parametreleri hesaplayarak ) ve M adımını uyguladım . $z$ $z$ $x$ $\theta^k$ $z$

Anladığım kadarıyla, her yineleme için maksimum olasılık artıyor, bu da her günlük yineleme için negatif log olasılığının azalması gerektiği anlamına mı geliyor? Ancak, yinelediğim gibi, algoritma gerçekten de negatif log olasılığının azalan değerlerini üretmez. Bunun yerine, hem azalan hem de artan olabilir. Örneğin bu, yakınsamaya kadar negatif log-olasılık olasılığının değerleridir:

resim açıklamasını buraya girin

Burada yanlış anladığım var mı?

Ayrıca, gerçek latent (gözlemlenmemiş) değişkenler için maksimum olasılığı gerçekleştirdiğimde simüle edilmiş veriler için, mükemmel uyum için yakınım var, bu da hiçbir programlama hatası olmadığını gösteriyor. EM algoritması için, özellikle parametrelerin belirli bir alt kümesi (yani sınıflandırma değişkenlerinin oranları) için açıkça en düşük çözümlere yakınsar. Algoritmanın yerel minima veya sabit noktalara yakınlaşabileceği iyi bilinmektedir, geleneksel bir arama sezgisel veya küresel minimum (veya maksimum) bulma olasılığını artırmak için . Bu özel problem için çok değişkenli sınıflandırmalar olduğuna inanıyorum çünkü iki değişkenli karışımdan, iki dağılımdan biri olasılıkla bir değer alıyor (gerçek yaşamın bulunduğu yaşamların bir karışımıdır) $T=z T_0 + (1-z)\infty$ ; burada , her iki dağıtımdan birine ait olduğunu gösterir. Elbette göstergesi veri setinde sansürlenir. $z$ $z$ resim açıklamasını buraya girin

Teorik çözümle başladığım zaman için ikinci bir rakam ekledim (optimal olana yakın olmalı). Ancak görülebileceği gibi, olasılık ve parametreler bu çözümden açıkça daha düşük olana dönüşmektedir.

edit: Tam veriler ; burada , konu için gözlemlenen bir zamandır , , zamanın gerçek bir olayla ilişkili olup olmadığını gösterir bunun doğru (1 o anlamına gelir etkinlik ve 0 anlamına gelir: sağ sansürleme) durdurulmuş veya kesme göstergesi gözlem (muhtemelen 0) kesilmesi zamanı ve son olarak gözlem ait olan nüfusu göstergesi (yana olan iki değişkenli olduğu için sadece 0 ve 1'i dikkate almamız gerekir). $\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)$ $t_i$ $i$ $\delta_i$ $L_i$ $\tau_i$ $z_i$

İçin biz yoğunluk fonksiyonu vardır , benzer şekilde bu kuyruk dağılım fonksiyonu ile ilişkili olan . İçin ilgi olayı gerçekleşmez. Bu dağılımla ilişkili olmamasına rağmen , bunu , dolayısıyla ve olarak tanımlıyoruz . Bu ayrıca aşağıdaki tam karışım dağılımını da verir: $z=1$ $f_z(t)=f(t|z=1)$ $S_z(t)=S(t|z=1)$ $z=0$ $t$ $\inf$ $f(t|z=0)=0$ $S(t|z=0)=1$

$f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)$ ve $S(t) = 1 - p + pS_z(t)$

Olasılığın genel biçimini tanımlamaya devam ediyoruz:

$L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}}$

Şimdi, sadece olduğunda kısmen gözlenir , aksi takdirde bilinmiyor. Tam olasılık $z$ $\delta=1$

$L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}}$

burada , karşılık gelen dağılımın ağırlığıdır (muhtemelen bazı ortak değişkenler ve bunların bir bağlantı fonksiyonu ile ilgili katsayıları ile ilişkilidir). Çoğu literatürde bu aşağıdaki mantıksallık için basitleştirilmiştir $p$

$\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - \tau_i\big(z_i \ln(p) + (1-z_i)\ln(1-p)\big) + \delta_i z_i f_z(t_i;\theta) + (1-\delta_i) z_i S_z(t_i;\theta) - \tau_i S_z(L_i;\theta)\Big)$

İçin M-aşaması , bu fonksiyon olmasa da 1 maksimizasyonu yöntemi bütünüyle, maksimize edilmektedir. Bunun yerine bunun . $l(\theta,p; \cdot) = l_1(\theta,\cdot) + l_2(p,\cdot)$

K: th + 1 E-adımı için , (kısmen) gözlemlenmeyen gizli değişkenler beklenen değerini . , sonra olduğu gerçeğini kullanıyoruz . $z_i$ $\delta=1$ $z=1$

$E(z_i|\mathbf{x_i},\theta^{(k)},p^{(k)}) = \delta_i + (1-\delta_i) P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})$

Burada, $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i}) =\frac{P(\mathbf{x_i};\theta^{(k)},p^{(k)}|z_i=1)P(z_i=1;\theta^{(k)},p^{(k)})}{P(\mathbf{x_i};\theta^{(k)},p^{(k)})}$

bu da bize $P(z_i=1;\theta^{(k)},p^{(k)}|\mathbf{x_i})=\frac{pS_z(t_i;\theta^{(k)})}{1 - p + pS_z(t_i;\theta^{(k)})}$

(Burada olduğuna , bu nedenle gözlemlenen bir olay yoktur, bu nedenle verilerinin olasılığı kuyruk dağılımı işlevi tarafından verilir. $\delta_i=0$ $\mathbf{x_i}$

maximum-likelihood mixture expectation-maximization

— İyi adam mike
kaynak

Sorunumuzun değişkenlerini en baştan, E ve M denklemlerinizi yazabilir misiniz?

— alberto

Tabii ki, soruyu E ve M adımlarıyla ilgili daha fazla ayrıntıyla düzenledim

— Good Guy Mike

Açıklığa kavuşturmak için, çizilen değerler, eksik veriler için tahmini değerler verildiğinde tam MLE'dir.

— Good Guy Mike

Nedir ? Anlamıyorum "bu dağıtım ile ilişkili t olmasına rağmen, biz inf olarak tanımlamak ...".

S_{z}

$S_z$

— wij

EM algoritması, beklenen tam veri olasılığını doğrudan en üst düzeye çıkarır, ancak gözlemlenen veri olasılığının artmasını garanti edebilir. Gözlenen veri olasılığının artışını kontrol ediyor musunuz?

— Randel

EM'nin amacı, gözlemlenen veri günlüğü olasılığını en üst düzeye çıkarmaktır,

l (θ) = \underset{ben}{Σ} \ln [\underset{z}{Σ} p (x_{ben}, z | θ)]

$l(\theta) = \sum_i \ln \left[ \sum_{z} p(x_i, z| \theta) \right]$

Ne yazık ki, bu göre optimize etmek zor olma eğilimindedir . Bunun yerine EM, yardımcı işlevi tekrar tekrar oluşturur ve en üst düzeye çıkarır $\theta$

S (θ, θ^{t}) = E_{z | θ^{t}} (\underset{ben}{Σ} \ln p (x_{ben}, z_{ben} | θ))

$Q(\theta , \theta^t) = \mathbb{E}_{z|\theta^t} \left (\sum_i \ln p(x_i, z_i| \theta) \right)$

Eğer maksimize , EM garanti $\theta^{t+1}$ $Q(\theta, \theta^t)$

l (θ^{t + 1}) \geq S (θ^{t + 1}, θ^{t}) \geq S (θ^{t}, θ^{t}) = l (θ^{t})

$l(\theta^{t+1}) \geq Q(\theta^{t+1}, \theta^t) \geq Q(\theta^t, \theta^t) = l(\theta^t)$

Bunun neden böyle olduğunu tam olarak bilmek istiyorsanız, Murphy'nin Makine Öğrenimi: Olasılıkçı Bir Perspektif Bölüm 11.4.7 iyi bir açıklama yapar. Senin uygulanması durumunda gelmez bu eşitsizlikleri tatmin olur, hata bir yere yaptık. Gibi şeyler söylemek

Mükemmel uyum yakın, programlama hataları olmadığını gösteren

tehlikeli. Birçok optimizasyon ve öğrenme algoritmasıyla, hata yapmak çok kolaydır, ancak çoğu zaman doğru görünümlü cevaplar alırsınız. Sevdiğim bir sezgi, bu algoritmaların dağınık verilerle başa çıkması için tasarlandığından, hatalarla da ilgilenmeleri şaşırtıcı değil!

Sorunuzun diğer yarısında,

geleneksel bir arama sezgisel mi yoksa benzer şekilde küresel minimum (veya maksimum) bulma olasılığını artırmak mı

Rastgele yeniden başlatmalar en kolay yaklaşımdır; bir sonraki en kolayı muhtemelen ilk parametreler üzerinde tavlama simülasyonudur. Ayrıca EM'nin deterministik tavlama adı verilen bir varyantını duydum , ancak kişisel olarak kullanmadım, bu yüzden size çok fazla şey söyleyemem.

— Andy Jones
kaynak

Güzel cevap (+1). Resmi referanslar (özellikle, kısmen alıntı yapılan "Makine Öğrenimi: Olasılıkçı Bir Perspektif" kaynağına bir referans) eklerseniz daha da iyi olurdu.

— Aleksandr Blekh

Cevabınız için çok teşekkür ederim. Algoritmanın koddaki bir hatayı düzelttikten sonra şimdi düzgün bir şekilde birleştiğini gördüm, ancak yalnızca kesilmiş verilerimi hariç tuttuğumda. Aksi takdirde haywire gider. Bunun bazı hataların bir sonucu olduğuna inanıyorum.

— İyi Guy Mike

Aslında sorun, "heterojen kesilme" ile uğraşmam, yani tüm gözlemler için oybirliğiyle kesilme eşiğinden ziyade, her bir gözlem için ayrı bir kesilme noktası olması. Bu ayarları literatürde hiç bulamadım veya bulamadım, bu yüzden doğru bir şekilde çözdüğümü doğrulayamıyorum. Bu ayarı herhangi bir şansla görürseniz, bu referanslara bir göz atmak isterim!

L_{i}

$L_i$

— İyi Guy Mike