Sollte ich die Wortvektoren von word2vec normalisieren, bevor ich sie verwende?

38

Ist es nach dem Training von Wortvektoren mit word2vec besser, sie zu normalisieren, bevor Sie sie für einige nachgelagerte Anwendungen verwenden? Dh was sind die Vor- / Nachteile einer Normalisierung?

Franck Dernoncourt
quelle
Bei einer Ähnlichkeitsaufgabe verbesserte die Normalisierung die Systemleistung ein wenig.
Keramik
Siehe auch
Mark Amery

Antworten:

30

Wenn sich die nachgeschalteten Anwendungen nur um die Richtung der Wortvektoren kümmern (z. B. achten sie nur auf die Kosinusähnlichkeit von zwei Wörtern), normalisieren Sie und vergessen Sie die Länge.

Wenn jedoch die nachgelagerten Anwendungen in der Lage sind (oder müssen) betrachten vernünftige Aspekte, wie Wort Bedeutung oder Konsistenz in Wortgebrauch (siehe unten), dann Normalisierung vielleicht nicht so eine gute Idee sein.


Aus Levy et al., 2015 (und tatsächlich der größte Teil der Literatur zu Worteinbettungen):

Vektoren werden auf die Einheitslänge normiert, bevor sie für die Ähnlichkeitsberechnung verwendet werden, wodurch Kosinusähnlichkeit und Skalarprodukt gleichwertig werden.

Ebenfalls von Wilson und Schakel, 2015 :

Die meisten Anwendungen von Worteinbettungen untersuchen nicht die Wortvektoren selbst, sondern die Beziehungen zwischen ihnen, um beispielsweise Ähnlichkeits- und Wortbeziehungsaufgaben zu lösen. Für diese Aufgaben wurde festgestellt, dass die Verwendung von normalisierten Wortvektoren die Leistung verbessert. Die Wortvektorlänge wird daher normalerweise ignoriert.

Normalisieren ist gleichbedeutend mit dem Verlust des Längenbegriffs. Das heißt, sobald Sie die Wortvektoren normalisiert haben, vergessen Sie die Länge (Norm, Modul), die sie direkt nach der Trainingsphase hatten.

Aber manchmal ist es lohnt sich, die ursprüngliche Länge der Wortvektoren zu berücksichtigen.

Schakel und Wilson, 2015, beobachteten einige interessante Fakten bezüglich der Länge von Wortvektoren:

Ein Wort, das in einem ähnlichen Kontext konsistent verwendet wird, wird durch einen längeren Vektor dargestellt als ein Wort mit derselben Häufigkeit, das in verschiedenen Kontexten verwendet wird.

Nicht nur die Richtung, sondern auch die Länge der Wortvektoren enthält wichtige Informationen.

Die Wortvektorlänge liefert in Kombination mit der Termfrequenz ein nützliches Maß für die Wortbedeutung.

Turdus-Merula
quelle
Können wir erläutern, "dass festgestellt wurde, dass die Verwendung normalisierter Wortvektoren die Leistung verbessert"? Ist Normalisierung nicht mit zusätzlicher Berechnung verbunden?
Neurite
4
@neurite, in diesem Zusammenhang bezieht sich eine bessere Leistung auf eine bessere Punktzahl bei den Bewertungsaufgaben.
Turdus-Merula