TF-IDF logaritmasında logaritma kullanımını anlama

Ben okuyordum:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum.

Ne Anlıyorum:

iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir.

Bu açıdan

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Ayrıca terim frekansı doğru olarak şu şekilde tanımlanabilir:

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Sonra ölçü

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

bir şekilde belirli bir belgede bir terimin ne sıklıkta göründüğü ve bu terimin belge kümesi üzerinde ne kadar benzersiz olduğu ile orantılıdır.

Ne anlamadım

Ancak verilen formül bunu

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Tanımda tanımlanan logaritmalara olan ihtiyacı anlamak istiyorum. Neden oradalar? Hangi yönü vurguluyorlar?

— frogeyedpeas
kaynak

Vurgulanan husus, bir terimin veya belgenin alaka düzeyinin terim (veya belge) sıklığı ile orantılı olarak artmamasıdır. Bu nedenle, bir alt doğrusal fonksiyon kullanmak bu etkiyi azaltmaya yardımcı olur. Bunun için çok büyük veya çok küçük değerlerin (örneğin çok nadir kelimeler) etkisi de itfa edilmektedir. Son olarak, çoğu insan sezgisel olarak puanlama işlevlerini logaritmalar kullanarak bir miktar katkı olarak algıladığından , den farklı bağımsız terimlerin olasılığını . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Bağladığınız Wikipedia makalesinde , TF-IDF'nin gerekçesi hala iyi bilinmemektedir; gerçek dünyaya aktarmak istediğimiz titiz bir kavram değil, titiz hale getirmek istediğimiz bir buluşsal yöntemdi. @ Anony-Mousse tarafından konuyla ilgili çok iyi bir okuma olarak belirtildiği gibi Robertson'ın Ters Belge Sıklığını Anlama: IDF için teorik argümanlar . Tüm çerçeveye geniş bir genel bakış sunar ve TF-IDF metodolojisini arama terimlerinin alaka düzeyine göre ağırlıklandırmaya çalışır.

— usεr11852
kaynak

TF-IDF bazıları gerekçe bulunabilir "bilgi alma sezgisel bir resmi çalışma.", 2004 Fang, Hui ve arkadaşları (tarafından pdf ).

— Alexey Grigorev

Bunun TF-IDF gerekçeleri için daha iyi bir referans olduğunu düşünüyorum: Robertson, S. (2004). Msgstr "Ters belge sıklığını anlama: IDF için teorik argümanlar hakkında". Dokümantasyon Dergisi 60 (5): 503-520.

— ÇIKIŞ - Anony-Mousse

Yorumlarınız için teşekkür ederim beyler (ve düzeltmek için Alexey'e özel teşekkürler \log, sürekli onları unutuyorum); Her ikisine de +1. Robertson gazetesini gördüm ve eklemeyi düşündüm; gerçekten iyi bir okuma, ana gövdeye ekleyeceğim.

— usεr11852

@ Anony-Mousse (pdf)

— Kedi Mors

Neden "belge D herhangi bir dize Q için maksimum yineleme sayısı" kullanılır bilmek istiyorum number of occurrences for all strings in document D. Neden tüm kelimelerin sayısı yerine en yaygın kelimenin sayısını istiyoruz?

— Xeoncross