Eğer işaret göreceğiniz gibi başka tf-idf tartışılan olduğunu, evrensel olarak hesaplamak için tek formülü var kabul edilmektedir tf-IDF (sorunuzu olduğu gibi) bile ya idf . Amacının+1şu iki amaçtan birini başarmaktır: a) hiçbir terim belgede görünmediği gibi sıfıra bölünmekten kaçınmak , bu kesinlikle "kelimeler torbası" yaklaşımında olmasa da, b) bir terime, tüm belgelerde göründüğü için sıfır ağırlık verilmesini önleyin.
Aslında formülasyonu hiç görmedim log(1+Nnt), bir ders kitabından bahsetmenize rağmen. Ancak amaç,log(2)doğru yorumladığınız gibi, sıfır yerine. 1 + gördümlog(Nnt)alt sınırını 1 belirler. En yaygın kullanılan hesaplama log(Nnt), Manning, Christopher D, Prabhakar Raghavan ve Hinrich Schütze'de (2008) Bilgi Edinmeye Giriş , Cambridge University Press, p118 veya Wikipedia (benzer kaynaklara dayanarak).
Sorgunuzla doğrudan alakalı değil, ancak üst sınır ilgili değil ∞, daha ziyade k+log(N/s) nerede k,s∈0,1yumuşatma formülasyonunuza bağlı olarak. Bu, 0 veya 1 belgede görünen terimler için olur (tekrar,ssıfır belge sıklığına sahip terimler için tanımlanmış yapmak için - değilse, yalnızca bir belgede görünen terimler için maksimum değer oluşur). IDF→∞ ne zaman 1+nt=1 ve N→∞.