Word2Vec Algorithmen (Überspringen Gram und CBOW) behandeln jedes Wort gleich, weil ihr Ziel zu berechnen Wort Einbettungen. Die Unterscheidung wird wichtig, wenn mit Sätzen oder Dokumenteneinbettungen gearbeitet werden muss : Nicht alle Wörter repräsentieren gleichermaßen die Bedeutung eines bestimmten Satzes. Und hier werden verschiedene Gewichtungsstrategien angewendet, TF-IDF ist eine davon und laut einigen Veröffentlichungen ziemlich erfolgreich. Aus dieser Frage von StackOverflow :
In dieser Arbeit wurden Tweets mit drei Arten der Textdarstellung modelliert. Das erste ist ein mit tf-idf gewichtetes Wortsackmodell (Termhäufigkeit - inverse Dokumenthäufigkeit) (Abschnitt 2.1.1). Der zweite stellt einen Satz dar, indem die Worteinbettungen aller Wörter (im Satz) gemittelt werden, und der dritte stellt einen Satz dar, indem die gewichteten Worteinbettungen aller Wörter gemittelt werden. Das Gewicht eines Wortes wird durch tf-idf angegeben (Abschnitt 2.1.2 ).