Gauss karışımını optimize etmek neden doğrudan hesaplama açısından zor?


18

Gauss'luların bir karışımının günlük olasılığını düşünün:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

Bu denklemi doğrudan maksimize etmenin niçin hesaplama açısından zor olduğunu merak ediyordum? Neden zor olduğu açık ya da belki de neden zor olduğu hakkında daha titiz bir açıklama üzerinde net bir sezgi arıyordum. Bu problem NP-tamamlanmış mı yoksa henüz nasıl çözeceğimizi bilmiyor muyuz? EM ( beklenti maksimizasyon ) algoritmasını kullanmak için başvurmamızın nedeni bu mu?


Gösterim:

Sn = egzersiz verisi.

x(t) = veri noktası.

θ = Gaussian'ı, bunların ortalamalarını, standart sapmalarını ve her kümeden / sınıftan / Gauss'tan bir nokta üretme olasılığını belirten parametreler kümesi.

pi = küme / sınıf / Gauss i'den bir nokta üretme olasılığı.

Yanıtlar:


14

Birincisi, GMM, gözlemlerinizin en uygun etiketlemesini bulmaya çalıştığınız kümeleme için özel bir algoritmadır . Having k olası sınıfları, bu olmadığı anlamına gelir k n antrenman verilerinin olası labellings. Bu, k ve n'nin orta değerleri için zaten çok büyük olur .nkknkn

İkincisi, en aza indirmeye çalıştığınız işlev dışbükey değildir ve probleminizin boyutu ile birlikte çok zorlaştırır. Sadece k-araçlarının (GMM'nin kmeans'in yumuşak bir versiyonu olarak görülebileceğini) NP-zor olduğunu biliyorum. Ancak GMM için de kanıtlanıp kanıtlanmadığının farkında değilim.

Sorunun dışbükey olmadığını görmek için, tek boyutlu durumu düşünün: ve d 2 L'yi garanti edemeyeceğinizi kontrol edin

L=log(e(x/σ1)2+e(x/σ2)2)
tüm x için d x 2 >0.d2Ldx2>0

Dışbükey olmayan bir problemin olması, yerel minima'da sıkışabileceğiniz anlamına gelir. Genel olarak, dışbükey optimizasyonda sahip olduğunuz güçlü garantilere sahip değilsiniz ve bir çözüm aramak da çok daha zor.


3
İkinci nokta ile ilgili olarak: k-araçları GMM'lerin özel bir durumu olarak görülebilir (daha kesin olarak, varyansların sıfıra alındığı bir sınır durum). K-araçlarını bir GMM'nin takılmasına indirgeyebilirsek, ikincisi de NP zor bir problem olmalıdır.
Lucas

1
@Lucas: İşte sözlerinize Çapraz Onaylanmış bir bağlantı .
Xi'an

7

Juampa'nın noktalarına ek olarak, şu zorluklara işaret edeyim:

  • İşlev gerçek maksimum yani, sınırsızdır + ve karşılık gelir ^ ı ( I ) = x 1 (örneğin) ve σ i = 0 . Bu nedenle, gerçek bir maksimize edici, tahmin amaçları için yararlı olmayan bu çözümle sonuçlanmalıdır.l(θ|Sn)+μ^(i)=x1σ^i=0
  • Toplamların ayrışmasındaki terimlerini, l ( θ | S n ) cinsinden ürünlerin toplamı olarak dikkate almadan bile , θ cinsinden maksimize edilecek fonksiyon yüksek derecede çok modludur (dışbükey olmamasına ek olarak) dolayısıyla sayısal yöntemler için bir meydan okuma. EM, yerel bir moda veya eyer noktasına dönüşerek ve birden fazla çalışma gerektirerek zorluğu kabul eder. Gösterildiği gibiknl(θ|Sn)θthe image below

kitabımdan alınmış .

Ek bir açıklama: EM algoritmasını çağırmadan, bir kerede bir parametre olan standart bir optimizasyon algoritması (Newton-Raphson gibi) kullanılabilir, yani yineleme

  • θ1=argmaxθ1l(θ|Sn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


Tamam, eğer varyans 0 ise L sınırsızdır. Ancak bunları olası parametrelerden hariç tutarsak (bu yüzden tüm varyans> 0 olduğunu varsayarız), o zaman L sonsuz sınırsız varyans (diğer noktalar nedeniyle) her zaman çok yüksek olmamalıdır. Haklı mıyım? Daha sonra, bu olası parametre seti için, L bağlı olacaktır ve bu, EM algoritmasının yakınsadığı (artan sınırlı sekans) anlamına gelecektir.
ahstat

@ahstat: varyansların kesinlikle pozitif olduğunu varsaymak, EM'nin yeterince yakın başlatılmışsa dejenere bir çözelti haline gelmesini engellemez.
Xi'an
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.