Küme çözümlerini değerlendirmek için iki Gauss karışımı arasındaki mesafe


11

Farklı kümeleme yöntemlerini karşılaştırmak için hızlı bir simülasyon çalıştırıyorum ve şu anda küme çözümlerini değerlendirmeye çalışan bir engelle karşılaşıyorum.

Çeşitli doğrulama metriklerini biliyorum (çoğu R'de cluster.stats () öğesinde bulundu ), ancak tahmin edilen küme sayısının gerçek kümelerin gerçek sayısına eşit olması durumunda bunların en iyi şekilde kullanıldığını varsayıyorum. Orijinal simülasyonda doğru küme sayısını belirtmediğinde bir kümeleme çözümünün ne kadar iyi performans gösterdiğini ölçme yeteneğini korumak istiyorum (yani, 4 kümeye sahip olacak şekilde simüle edilmiş üç küme çözüm modeli verisi ne kadar iyi? çözüm). Sadece bilginiz için, kümeler aynı kovaryans matrislerine sahip olacak şekilde simüle edilir.

Gaussianların iki karışımı arasındaki KL ıraksamasının uygulanmasının yararlı olacağını düşündüm, ancak kapalı bir form çözümü yok ( Hershey ve Olson (2007) ) ve Monte Carlo simülasyonunun uygulanması hesaplama açısından pahalı olmaya başlıyor.

Uygulanması kolay olabilecek başka çözümler var mı (sadece bir yaklaşım olsa bile)?


İki Gauss karışımı arasındaki L2 mesafesi kapalı formda mevcuttur. Bunu kullanın ve hepiniz hazır olmalısınız.

Bunu nasıl yapacağınızı bilmiyorum, ama bana iyi bir fikir gibi gelmiyor. Bir karışım alın, bileşenlere izin verin (p (x) 'de değişiklik yok) ve L2 mesafesi herhangi bir şey olabilir. Ayrıca, L2 mesafesi kovaryans matrisleri için iyi bir fikir değildir.
bayerj

Bekletilen bir test veri kümesinin posterior öngörme olasılığı. Yine de k ile ilgili önceliklere ihtiyaç duyacağınızdan şüpheleniyorum.
varsayımlar

İlk bağlantı bozuldu
ttnphns

Yanıtlar:


6

de iki Gauss karışımımız olduğunu varsayalım : Yoğunlukları Çağrı ve dir, ve bileşenlerinin yoğunlukları ifade , tarafından , .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

Aşağıdaki mesafeler kapalı formda mevcuttur:

  • L2 mesafesi, user39665 tarafından yapılan bir yorumda önerildiği gibi. Bu: Örneğin , matris yemek kitabının 8.1.8 bölümünde görüldüğü gibi : böylece zamanda kolayca değerlendirilebilir .

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N ( x ; μ , Σ ) N ( x ; μ , Σ )
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • Gaussian RBF çekirdeği ile maksimum ortalama tutarsızlık (MMD). Bu, istatistik topluluğu arasında henüz çok iyi bilinmeyen, tanımlanması biraz matematik gerektiren serin bir mesafedir.

    İzin vermek Hilbert alanı tanımlamak olarak : karşılık gelen çoğaltma Hilbert boşluğu .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    Tanımlar Ortalama harita çekirdeği olarak

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMD daha sonra

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    ve karışımlarımız için ve benzer şekilde ve için .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    Bu gibi benzer numaralar kullanılarak çıkıyor , bu olduğu L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    Gibi , bir katına açıkça bu yakınsak mesafesi. Normalde veri varyasyonunun ölçeğinde farklı bir kullanmak istersiniz .σ0L2σ

    MMD'de polinom çekirdekleri için kapalı formlar da mevcuttur ; görmekk

    Muandet, Fukumizu, Dinuzzo ve Schölkopf (2012). Destek Ölçme Makineleri ile Dağıtımlardan Öğrenme. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler ( resmi versiyon ). arXiv: 1202.6504 .

    Bu mesafenin birçok güzel özelliği için bkz.

    Sriperumbudur, Gretton, Fukumizu, Schölkopf ve Lanckriet (2010). Hilbert uzay düğünleri ve olasılık ölçütlerine ilişkin metrikler. Makine Öğrenimi Araştırmaları Dergisi, 11, 1517–1561 . arXiv: 0907.5309 .

  • İkinci dereceden Jensen-Rényi ayrışması. Rényi- entropy Olarak onun sınırı Shannon entropisidir. Jensen-Rényi sapması burada , ve arasında eşit bir karışımı belirtir . Bu çıkıyor, zaman ve ne zaman ve (burada olduğu gibi), Gauss karışımları, sen için bir kapalı bir form hesaplayabilir . Bu tarafından yapıldıα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer ve Rangarajan (2009). Gaussianların Karışımı için Kapalı Form Jensen-Renyi Iraksaklığı ve Grup-Bilge Kayıtlarına Başvurular. Med Image Comput Comput Assist Aralık, 12 (1), 648-655. ( ücretsiz yayınlanmış sürüm )


0

Senin kümeler aslında değilseniz değil Gauss karışımlar ama keyfi şekilli, sonuçlarınız aslında çok daha iyi olabilir çok daha kümeleri üretmek zaman sonra tekrar sonradan bazı birleştirme.

Çoğu durumda, sadece k'nin keyfi olarak yüksek olmasını seçer, örneğin büyük bir veri kümesi için 1000; özellikle modellerle gerçekten ilgilenmediğinizde, ancak vektör nicelemeyle veri kümesinin karmaşıklığını azaltmak istediğinizde.


Bir Gauss karışımından alınacak kümeleri simüle ettim, bu yüzden varsayımın geçerli olduğunu düşünüyorum. Buradaki amaç, karmaşıklığı azaltmak veya k seçiminde karar kriteri bulmak değil, k gerçekten yanlış olduğunda k kümelerinin verileri ne kadar iyi modellediğini karşılaştırmaktır. Bazı yanlış seçimler verileri diğerlerinden daha iyi modelleyebilir ve bazı hesaplamalarla (KL sapması gibi, ancak Gauss karışımları için uygulanması daha kolay) bu uyumsuzluğu ölçmeye çalışıyorum.
dmartin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.