SVD'den önce bir kelime eşgüdüm matrisine noktasal karşılıklı bilgi uygulamanın avantajları ve dezavantajları nelerdir?


11

Kelime düğünleri oluşturmanın bir yolu aşağıdaki gibidir ( ayna ):

  1. Bir şirket alın, örneğin "Uçmayı seviyorum. NLP'yi seviyorum. Derin öğrenmeyi seviyorum."
  2. Bundan cooccurrence matrisi kelimesini oluşturun:

resim açıklamasını buraya girin

  1. SVD gerçekleştirin ve U'nun ilk sütunlarını koruyun.Xk

resim açıklamasını buraya girin

alt her satırı , satırın temsil ettiği kelimenin gömme sözcüğü olacaktır (satır 1 = "I", satır 2 = "beğen",…).U1:|V|,1:k

2 ve 3. adımlarla arasında noktasal karşılıklı bilgi bazen uygulanan (örn A. HERBELOT ve EM Vecchi 2015. Binasında ortak bir dünya: Haritalama bölüşüm modeli-teorik semantik mekanlara In Tutanaklarının 2015 Konferansı Doğal Dil İşleme Ampirik Yöntemler. Lizbon, Portekiz .).

SVD'den önce bir kelime eşgüdüm matrisine noktasal karşılıklı bilgi uygulamanın avantajları ve dezavantajları nelerdir?

Yanıtlar:


11

göre Dan Jurafsky ve James H. Martin kitabın:

Ancak, basit frekansın kelimeler arasındaki en iyi ilişki ölçüsü olmadığı ortaya çıkıyor. Bir sorun, ham frekansın çok eğri olması ve çok ayrımcı olmamasıdır. Kayısı ve ananas tarafından ne tür bağlamların paylaşıldığını bilmek istiyorsak ancak dijital ve bilgi ile değil, her türlü kelime ile sık sık meydana gelen ve belirli bir kelime hakkında bilgilendirici olmayan, ya da onlar gibi kelimelerden iyi bir ayrımcılık elde edemeyiz. "

bazen bu ham frekansı pozitif olumlu karşılıklı bilgilerle değiştiririz:

PPMI(w,c)=maksimum(günlük2P(w,c)P(w)P(c),0)

Kendi başına PMI, bir C kelimesi ile bir kelimeyi gözlemlemenin, onları bağımsız olarak gözlemlemeye kıyasla ne kadar mümkün olduğunu gösterir. PPMI'da yalnızca PMI'nin pozitif değerlerini tutarız. PMI'nin ne zaman + veya - olduğunu ve neden yalnızca negatif olanları tuttuğumuzu düşünelim:

Pozitif PMI anlamı ne?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • ve tekme ve top gibi münferit olarak karşılıklı olarak meydana geldiğinde olur . Bunları saklamak istiyoruz!wc

Negatif PMI anlamı ne?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • hem araçları ve veya bunlardan biri bireysel olarak meydana gelme eğilimindedir! Sınırlı verilerden dolayı güvenilir olmayan istatistikleri gösterebilir, aksi takdirde `` '' ve 'top' gibi bilgilendirici eşzamanlı olaylar gösterir. ('the' kelimelerin çoğunda da görülür.)wc

PMI veya özellikle PPMI, bu tür durumları bilgilendirici bir ortak oluşumla yakalamamıza yardımcı olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.