Ich habe gelesen:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Aber ich kann nicht genau verstehen, warum die Formel so konstruiert wurde, wie sie ist.
Was ich tue Verstehe:
iDF sollte auf einer bestimmten Ebene messen, wie häufig ein Begriff S in jedem der Dokumente vorkommt, wobei der Wert abnimmt, wenn der Begriff häufiger vorkommt.
Aus dieser Perspektive
Weiterhin kann der Begriff Frequenz zu Recht als beschrieben werden
Also dann das Maß
ist in gewisser Weise proportional dazu, wie häufig ein Begriff in einem bestimmten Dokument vorkommt und wie eindeutig dieser Begriff über den Satz von Dokumenten ist.
Was ich nicht verstehe
Aber die angegebene Formel beschreibt es als
Ich möchte die Notwendigkeit der in der Definition beschriebenen Logarithmen verstehen. Warum sind sie dort? Welchen Aspekt betonen sie?
quelle
\log
, ich vergesse sie ständig); +1 für beide. Ich habe das Robertson-Papier gesehen und überlegt, es hinzuzufügen. Es ist eine wirklich gute Lektüre, ich werde sie im Hauptteil hinzufügen.number of occurrences for all strings in document D
. Warum wollen wir die Anzahl der häufigsten Wörter anstelle der Anzahl aller Wörter?