Mein Lehrbuch listet die IDF als wo
- : Anzahl der Dokumente
- : Anzahl der Dokumente, die den Begriff t enthalten
Wikipedia listet diese Formel als eine geglättete Version des aktuellen . Das verstehe ich: es reicht vonlog(N.bis∞,was intuitiv erscheint.
Aberlog(1+N.
geht vonlog(1+1)nach∞,was so seltsam erscheint ...
Ich weiß ein wenig über das Glätten durch Sprachmodellierung, aber dort würden Sie sowohl im Zähler als auch im Nenner etwas hinzufügen, weil Sie sich Sorgen machen über die Wahrscheinlichkeitsmasse. Aber nur1hinzuzufügenmacht für mich keinen Sinn. Was versuchen wir hier zu erreichen?
text-mining
natural-language
smoothing
user2740
quelle
quelle
Antworten:
Ich habe die Formulierung eigentlich nie gesehenlog(1+Nnt) log(2) log(Nnt) log(Nnt)
quelle