LSA ve pLSA arasında bir parellel


9

PLSA'nın orijinal makalesinde yazar Thomas Hoffman, sizinle tartışmak istediğim pLSA ve LSA veri yapıları arasında bir paralellik çiziyor.

Arka fon:

İlham alarak bir Bilgi Edinme biz bir koleksiyon olduğunu varsayın belgelerin ve bir kelime açısındanN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Bir corpus , eş zamanlılık matrisi ile temsil edilebilir .XN×M

Gelen Latent Semantik maliyet analizi ile SVD matris üç matrislerde factorized olup burada ve olan tekil değerler arasında ve sıralamasıdır .X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

in LSA yaklaşımı , resimde gösterildiği gibi üç matrisi bir miktar seviyesine indirgeyerek hesaplanır :X

X^=U^Σ^VT^
k<s

resim açıklamasını buraya girin

PLSA'da, sabit bir konu kümesi seçin (gizli değişkenler) tahmini şu şekilde hesaplanır: ; burada üç matris, modelin olasılığını en üst düzeye çıkaran matrislerdir.Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Gerçek soru:

Yazar bu ilişkilerin devam ettiğini belirtiyor:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

ve LSA ve pLSA arasındaki önemli farkın, en uygun ayrışma / yaklaşımı belirlemek için kullanılan objektif bir fonksiyon olması.

Haklı olduğundan emin değilim, çünkü iki matrisin farklı kavramları temsil ettiğini düşünüyorum : LSA'da, bir terimin bir belgede göründüğü sürenin bir tahmini ve pLSA'da (tahmini ) bir terimin belgede görünme olasılığı.X^

Bu noktayı netleştirmeme yardım eder misin?

Ayrıca, yeni bir belge verilen bir korpus iki model hesaplanan herhalde , LSA I kullanımda bu gibi yaklaşıklık hesaplamak için: d

d^=d×V×VT
  1. Bu her zaman geçerli mi?
  2. Aynı prosedürü pLSA'ya uygulayarak neden anlamlı sonuç alamıyorum?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Teşekkür ederim.

Yanıtlar:


12

Basitlik için, burada LSA ve negatif olmayan matris çarpanlara ayırma (NMF) arasındaki bağlantıyı veriyorum ve daha sonra maliyet fonksiyonunda basit bir değişikliğin pLSA'ya nasıl yol açtığını gösteriyor. Daha önce belirtildiği gibi, LSA ve pLSA , satırların ve sütunların normalleşmesine kadar, belge terimi matrisinin düşük dereceli ayrışması anlamında çarpanlara ayırma yöntemleridir:

X=UΣD

önceki gösterimleri kullanarak. Daha basit olarak, belge terimi matrisi iki matrisin bir ürünü olarak yazılabilir:

X=ABT

burada ve . LSA için, önceki formülle yazışma ve ayarlanarak elde edilir .AN×sBM×sA=UΣB=VΣ

LSA ve NMF arasındaki farkı anlamanın kolay bir yolu, geometrik yorumlarını kullanmaktır:

  • LSA şu çözümdür:

    minA,BXABTF2,
  • NMF- aşağıdakilerin çözümüdür: L2

    minA0,B0XABTF2,
  • NMF-KL, pLSA'ya eşdeğerdir ve şu çözeltinin çözümüdür:

    minA0,B0KL(X||ABT).

burada olan Kullback-Leibler matrisler ayrışma ve . Yukarıdaki tüm sorunların benzersiz bir çözümü olmadığını görmek kolaydır, çünkü pozitif bir sayıyla çarpıp bölebilirKL(X||Y)=ijxijlogxijyijXYABaynı objektif değeri elde etmek için aynı sayıda Bu nedenle, - LSA durumunda, insanlar genellikle özdeğerlerini azaltarak sıralı bir temel seçerler. Bu, SVD ayrışması ile verilir ve LSA çözümünü tanımlar, ancak işlemlerin çoğunda (kosinüs benzerliği, yukarıda belirtilen yumuşatma formülü vb.) Etkisi olmadığı için başka herhangi bir seçenek mümkün olacaktır. - NMF durumunda, dik bir ayrışma mümkün değildir, ancak sıraları genellikle bir ile , çünkü olarak doğrudan olasılıksal bir yorumu vardır . Ek olarak, sıraları normalleştirilirse (yani bire eşittir), o zaman sıralarının bir toplamı gerekir ve olasılıksal yoruma yol açar.birp(zk|dben)XBp(fj|zk) . Yukarıdaki soruda verilen pLSA sürümü ile küçük bir fark vardır, çünkü sütunları toplamla , böylece değerler , ancak fark sadece parametrelendirme değişikliğidir. , sorun aynı kaldı.birbirp(dben|zk)

Şimdi, ilk soruyu cevaplamak için, LSA ve pLSA (ve diğer NMF algoritmaları) arasındaki farkta ince bir şey var: olumsuzluk kısıtlamaları aa Tekil Değer nedeniyle geçerli olmayan bir "kümeleme etkisi" indükler Ayrışma çözeltisi rotasyonel olarak değişmezdir. Olumsuzluk kısıtlamaları bir şekilde bu dönme değişmezliğini bozar ve bir tür anlamsal anlama sahip faktörler verir (metin analizindeki konular). Bunu açıklayan ilk makale:

Donoho, David L. ve Victoria C. Stodden. "Negatif olmayan matris çarpanlarına ayırma ne zaman parçalara doğru ayrışma sağlar?" Sinirsel bilgi işleme sistemlerindeki gelişmeler 16: 2003 konferansı bildirileri. MIT Press, 2004. [bağlantı]

Aksi takdirde, PLSA ve NMF arasındaki ilişki burada açıklanmaktadır:

Ding, Chris, Tao Li ve Wei Peng. "Negatif olmayan matris çarpanlarına ayırma ve olasılıksal gizli anlamsal indeksleme arasındaki denklik üzerine." Hesaplamalı İstatistik ve Veri Analizi 52.8 (2008): 3913-3927. [link]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.