Warum eine in umgekehrte Dokumenthäufigkeit hinzufügen?

9

Mein Lehrbuch listet die IDF als wolog(1+Nnt)

  • : Anzahl der DokumenteN
  • : Anzahl der Dokumente, die den Begriff t enthaltenntt

Wikipedia listet diese Formel als eine geglättete Version des aktuellen . Das verstehe ich: es reicht vonlog(N.log(Nnt)bis∞,was intuitiv erscheint. Aberlog(1+N.log(NN)=0
geht vonlog(1+1)nach∞,was so seltsam erscheint ... Ich weiß ein wenig über das Glätten durch Sprachmodellierung, aber dort würden Sie sowohl im Zähler als auch im Nenner etwas hinzufügen, weil Sie sich Sorgen machen über die Wahrscheinlichkeitsmasse. Aber nur1hinzuzufügenmacht für mich keinen Sinn. Was versuchen wir hier zu erreichen?log(1+Nnt)log(1+1)
1

user2740
quelle
verwandt, aber kein Duplikat: stats.stackexchange.com/questions/152182/…
Sycorax sagt Reinstate Monica
Die korrekte Glättung wird
log(N(1+nt))

Antworten:

7

+1

Ich habe die Formulierung eigentlich nie gesehenlog(1+Nnt)log(2)log(Nnt)log(Nnt)

k+log(N/s)k,s0,1s1+nt=1N

Ken Benoit
quelle