Grundlegendes zur Verwendung von Logarithmen im TF-IDF-Logarithmus

Ich habe gelesen:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist.

Was ich tue Verstehe:

iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt.

Aus dieser Perspektive

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Weiterhin kann der Begriff Frequenz zu Recht als beschrieben werden

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Also dann das Maß

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

ist in gewisser Weise proportional dazu, wie häufig ein Begriff in einem bestimmten Dokument vorkommt und wie eindeutig dieser Begriff über den Satz von Dokumenten ist.

Was ich nicht verstehe

Aber die angegebene Formel beschreibt es als

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Ich möchte die Notwendigkeit der in der Definition beschriebenen Logarithmen verstehen. Warum sind sie dort? Welchen Aspekt betonen sie?

machine-learning clustering mathematical-statistics text-mining natural-language Frogeyedpeas
quelle

Antworten:

$P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Wie der Wikipedia-Artikel, den Sie verlinken, feststellt, ist die Rechtfertigung von TF-IDF noch nicht gut etabliert. Es ist / war eine Heuristik, die wir rigoros machen wollen, nicht ein rigoroses Konzept, das wir in die reale Welt übertragen wollen. Wie von @ Anony-Mousse als sehr gute Lektüre zu diesem Thema erwähnt, ist Robertson's Understanding Inverse Document Frequency: Über theoretische Argumente für IDF . Es gibt einen umfassenden Überblick über das gesamte Framework und versucht, die TF-IDF-Methodik auf die Relevanzgewichtung von Suchbegriffen zu gründen.

usεr11852
quelle

Eine Rechtfertigung für TF-IDF findet sich in "Eine formale Studie zur Heuristik des Informationsabrufs", 2004 von Fang, Hui et al. ( Pdf ).

Alexey Grigorev

Ich denke, dies ist die bessere Referenz für TF-IDF-Rechtfertigungen: Robertson, S. (2004). "Inverse Dokumenthäufigkeit verstehen: Über theoretische Argumente für IDF". Journal of Documentation 60 (5): 503–520.

Hat aufgehört - Anony-Mousse

Vielen Dank für Ihre Kommentare, meine Herren (und besonderen Dank an Alexey für die Korrektur \log, ich vergesse sie ständig); +1 für beide. Ich habe das Robertson-Papier gesehen und überlegt, es hinzuzufügen. Es ist eine wirklich gute Lektüre, ich werde sie im Hauptteil hinzufügen.

usεr11852

@ Anony-Mousse (pdf)

Walross die Katze

Ich möchte wissen, warum "maximale Anzahl von Vorkommen für eine Zeichenfolge Q in Dokument D" anstelle von verwendet wird number of occurrences for all strings in document D. Warum wollen wir die Anzahl der häufigsten Wörter anstelle der Anzahl aller Wörter?

Xeoncross