Ben okuyordum:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum.
Ne Anlıyorum:
iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir.
Bu açıdan
Ayrıca terim frekansı doğru olarak şu şekilde tanımlanabilir:
Sonra ölçü
bir şekilde belirli bir belgede bir terimin ne sıklıkta göründüğü ve bu terimin belge kümesi üzerinde ne kadar benzersiz olduğu ile orantılıdır.
Ne anlamadım
Ancak verilen formül bunu
Tanımda tanımlanan logaritmalara olan ihtiyacı anlamak istiyorum. Neden oradalar? Hangi yönü vurguluyorlar?