göre Dan Jurafsky ve James H. Martin kitabın:
Ancak, basit frekansın kelimeler arasındaki en iyi ilişki ölçüsü olmadığı ortaya çıkıyor. Bir sorun, ham frekansın çok eğri olması ve çok ayrımcı olmamasıdır. Kayısı ve ananas tarafından ne tür bağlamların paylaşıldığını bilmek istiyorsak ancak dijital ve bilgi ile değil, her türlü kelime ile sık sık meydana gelen ve belirli bir kelime hakkında bilgilendirici olmayan, ya da onlar gibi kelimelerden iyi bir ayrımcılık elde edemeyiz. "
bazen bu ham frekansı pozitif olumlu karşılıklı bilgilerle değiştiririz:
PPMI ( w , c ) = maks ( günlük)2P( w , c )P( w ) P( c ), 0 )
Kendi başına PMI, bir C kelimesi ile bir kelimeyi gözlemlemenin, onları bağımsız olarak gözlemlemeye kıyasla ne kadar mümkün olduğunu gösterir. PPMI'da yalnızca PMI'nin pozitif değerlerini tutarız. PMI'nin ne zaman + veya - olduğunu ve neden yalnızca negatif olanları tuttuğumuzu düşünelim:
Pozitif PMI anlamı ne?
P( w , c )( P( w ) P( c ) )> 1
P( w , c ) > ( P( w ) P( c ) )
ve tekme ve top gibi münferit olarak karşılıklı olarak meydana geldiğinde olur . Bunları saklamak istiyoruz!wc
Negatif PMI anlamı ne?
P( w , c )( P( w ) P( c ) )< 1
P( w , c ) < ( P( w ) P( c ) )
hem araçları ve veya bunlardan biri bireysel olarak meydana gelme eğilimindedir! Sınırlı verilerden dolayı güvenilir olmayan istatistikleri gösterebilir, aksi takdirde `` '' ve 'top' gibi bilgilendirici eşzamanlı olaylar gösterir. ('the' kelimelerin çoğunda da görülür.)wc
PMI veya özellikle PPMI, bu tür durumları bilgilendirici bir ortak oluşumla yakalamamıza yardımcı olur.