Beklenti Maksimizasyonu karışım modelleri için neden önemlidir?


15

Karışım modellerinde (Gauss Karışımı, Gizli Markov Modeli, vb.) Beklenen Maksimizasyon yöntemini vurgulayan birçok literatür vardır.

EM neden önemlidir? EM, optimizasyon yapmanın bir yoludur ve degrade tabanlı yöntem (gradyan terbiyeli veya newton / yarı-newton yöntemi) veya BURADA tartışılan diğer gradyansız yöntem olarak yaygın olarak kullanılmaz . Buna ek olarak, EM'nin hala yerel minima problemi var.

Süreç sezgisel olduğu ve kolayca koda dönüştürülebildiği için mi? Ya da başka nedenler?

Yanıtlar:


14

Prensip olarak, hem EM hem de standart optimizasyon yaklaşımları karışım dağılımlarının takılması için kullanılabilir. EM gibi, dışbükey optimizasyon çözücüleri de yerel bir optimum hale gelecektir. Ancak, birden fazla yerel optima varlığında daha iyi çözümler aramak için çeşitli optimizasyon algoritmaları mevcuttur. Bildiğim kadarıyla, en iyi yakınsama hızına sahip algoritma soruna bağlı olacaktır.

EM'nin bir yararı, doğal olarak her iterasyonda karışım dağılımı için geçerli parametreler üretmesidir. Buna karşılık, standart optimizasyon algoritmalarının uygulanması için kısıtlamalara ihtiyaç duyacaktır. Örneğin, bir Gauss karışım modeli taktığınızı varsayalım. Standart doğrusal olmayan bir programlama yaklaşımı, kovaryans matrislerinin pozitif semidefinit olmasını ve karışım bileşeni ağırlıklarının negatif olmayan ve bir toplamını sınırlamasını gerektirir.

Yüksek boyutlu problemlerde iyi performans elde etmek için, doğrusal olmayan bir programlama çözücüsünün genellikle degradeden faydalanması gerekir. Yani, degradeyi türetmeniz veya otomatik farklılaştırmayla hesaplamanız gerekir. Degradeler, standart bir formları yoksa, kısıtlama işlevleri için de gereklidir. Newton yöntemi ve ilgili yaklaşımlar (örneğin, güven bölgesi yöntemleri) Hessian'a da ihtiyaç duyar. Gradyan yoksa, sonlu farklar veya türev içermeyen yöntemler kullanılabilir, ancak parametre sayısı arttıkça performans düşük ölçeklendirme eğilimi gösterir. Aksine, EM degradeyi gerektirmez.

EM kavramsal olarak sezgiseldir, bu büyük bir erdemdir. Bu genellikle standart optimizasyon yaklaşımları için de geçerlidir. Birçok uygulama detayı vardır, ancak genel konsept basittir. Bu ayrıntıları kaputun altında soyutlayan standart optimizasyon çözücüleri kullanmak genellikle mümkündür. Bu durumlarda, bir kullanıcının sadece nesnel işlevi, kısıtlamaları ve degradeleri sağlaması ve soruna çok uygun bir çözücü seçmek için yeterli çalışma bilgisine sahip olması gerekir. Ancak, kullanıcının optimizasyon algoritmasının düşük düzeyli ayrıntılarını düşünmesi veya uygulaması gereken noktaya gelmesi durumunda uzman bilgisi kesinlikle gereklidir.

EM algoritmasının diğer bir yararı, bazı veri değerlerinin eksik olduğu durumlarda kullanılabilmesidir.

Ayrıca ilgi (yorumlar dahil):


ipi=1qiRpi=exp(qi)jexp(qj)

1
CUC=UTUC

U0

Doğru, doğru, koleskopik ayrışma. Çok daha iyi.
user20160

1
+1 harika cevap! "doğal olarak her yinelemede karışım dağılımı için geçerli parametreler üretir" hakkında daha fazla bilgi verebilir misiniz? Diğer yöntemler için, her bir yineleme için hala karar değişkeni değerlerimiz var, değil mi?
Haitao Du

2

Bence user20160'ın cevabı çok iyi bir açıklama sağlıyor, burada gradyan bazlı yöntemleri uygun olmayan hale getirmenin en önemli nedeni kovaryans matrislerinin pozitif semidefinit olması için kısıtlama ve karışım katsayılarının negatif olmaması ve bire kadar toplamıdır.

Kovaryans matrislerini diyagonal olarak kısıtlarsak, bu iki kısıtlamanın kolayca ifade edilebileceğini belirtmek isteriz.

Çapraz kovaryans matrisi olarak yazılabilir.

Σ=[σ12σN2]
ϕk=epk/Kepi
daha sonra iki kısıtlama karşılanır ve gradyanlar basitçe geri yayılım ile söylenebilir.

Dahası bu, varyasyonel alt sınır (ELBO) yerine gerçek olasılık için doğrudan optimizasyon yapmamızı sağlar, böylece gizli değişkenlere olan ihtiyacı ortadan kaldırır.

Bununla birlikte, bu gibi durumlarda bile EM genellikle gradyanlı terbiyeden daha iyi bir algoritma olarak ortaya çıkar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.