Warum ist Skip-Gram besser für seltene Wörter als CBOW?

Antworten:

14

In CBOW werden die Vektoren aus den Kontextwörtern gemittelt, bevor das Zentralwort vorhergesagt wird. Im Sprung-Gramm gibt es keine Mittelung der Einbettungsvektoren. Es scheint, dass das Modell bessere Darstellungen für die seltenen Wörter lernen kann, wenn deren Vektoren nicht mit den anderen Kontextwörtern gemittelt werden, während die Vorhersagen gemacht werden.

Aaron
quelle
13

Hier ist mein stark vereinfachtes und eher naives Verständnis des Unterschieds:

Wie wir wissen, lernt CBOW , das Wort anhand des Kontexts vorherzusagen. Oder maximieren Sie die Wahrscheinlichkeit des Zielworts, indem Sie den Kontext betrachten. Und dies ist zufällig ein Problem für seltene Wörter. Wenn Sie beispielsweise den Kontext des yesterday was really [...] dayCBOW-Modells betrachten, werden Sie feststellen, dass das Wort höchstwahrscheinlich beautifuloder ist nice. Wörter wie delightfulerhalten viel weniger Aufmerksamkeit für das Modell, da es so konzipiert ist, dass es das wahrscheinlichste Wort vorhersagt. Seltene Wörter werden über viele Beispiele mit häufigeren Wörtern geglättet.

Andererseits soll das Überspringen-Gramm den Kontext vorhersagen. Angesichts des Wortes delightfulmuss es es verstehen und uns sagen, dass es eine große Wahrscheinlichkeit gibt, der Kontext ist yesterday was really [...] dayoder ein anderer relevanter Kontext. Mit Skip-Gramdelightful versucht das Wort nicht, mit dem Wort zu konkurrieren, beautifulsondern delightful+contextPaare werden als neue Beobachtungen behandelt. Aus diesem Grund benötigt Skip-Gram mehr Daten, um auch seltene Wörter verstehen zu können.

Serhiy
quelle
0

Ich bin gerade auf ein Papier gestoßen, das das Gegenteil zeigt: CBOW ist besser für seltene Wörter als Skip-Gram https://arxiv.org/abs/1609.08293 . Ich frage mich, woher die angegebenen Angaben auf https://code.google.com/p/word2vec/ stammen .

xsway
quelle
Ich glaube, Mikolov hat das Toolkit selbst geschrieben. Interessanterweise führt er in seinem Artikel aus : papers.nips.cc/paper/… "Wir zeigen, dass das Unterabtasten von häufigen Wörtern während des Trainings zu einer signifikanten Beschleunigung führt (etwa 2x - 10x) und die Genauigkeit der Darstellung von weniger häufigen Wörtern verbessert. " also sein überspringen-gramm mit der subsampling-erweiterung.
Kevin