Neden ters belge sıklığı eklemelisiniz?


9

Ders kitabımda idf log(1+Nnt) nerede

  • N: Doküman Sayısı
  • nt: Terim içeren Belge Sayısı t

Wikipedia, bu formülü gerçek öğenin düzgünleştirilmiş bir sürümü olarak listeler log(Nnt). Anladığım kadarıyla:log(NN)=0 için sezgisel görünüyor.
Fakatlog(1+Nnt) den gider log(1+1) için Bu çok tuhaf görünüyor ...
Dil modellemesinden yumuşatma hakkında biraz şey biliyorum ama orada paydaya ve paydaya bir şey eklersiniz çünkü olasılık kütlesi hakkında endişelisiniz. Ama sadece1bana mantıklı gelmiyor. Burada neyi başarmaya çalışıyoruz?


ilgili, ancak bir kopya değil: stats.stackexchange.com/questions/152182/…
Sycorax,

Doğru düzeltme yapılacaktır.
log(N(1+nt))
ashishpatel.co.in

Yanıtlar:


7

Eğer işaret göreceğiniz gibi başka tf-idf tartışılan olduğunu, evrensel olarak hesaplamak için tek formülü var kabul edilmektedir tf-IDF (sorunuzu olduğu gibi) bile ya idf . Amacının+1şu iki amaçtan birini başarmaktır: a) hiçbir terim belgede görünmediği gibi sıfıra bölünmekten kaçınmak , bu kesinlikle "kelimeler torbası" yaklaşımında olmasa da, b) bir terime, tüm belgelerde göründüğü için sıfır ağırlık verilmesini önleyin.

Aslında formülasyonu hiç görmedim log(1+Nnt), bir ders kitabından bahsetmenize rağmen. Ancak amaç,log(2)doğru yorumladığınız gibi, sıfır yerine. 1 + gördümlog(Nnt)alt sınırını 1 belirler. En yaygın kullanılan hesaplama log(Nnt), Manning, Christopher D, Prabhakar Raghavan ve Hinrich Schütze'de (2008) Bilgi Edinmeye Giriş , Cambridge University Press, p118 veya Wikipedia (benzer kaynaklara dayanarak).

Sorgunuzla doğrudan alakalı değil, ancak üst sınır ilgili değil , daha ziyade k+log(N/s) nerede k,s0,1yumuşatma formülasyonunuza bağlı olarak. Bu, 0 veya 1 belgede görünen terimler için olur (tekrar,ssıfır belge sıklığına sahip terimler için tanımlanmış yapmak için - değilse, yalnızca bir belgede görünen terimler için maksimum değer oluşur). IDF ne zaman 1+nt=1 ve N.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.