Ich habe an trainierten Daten für den Word2vec-Algorithmus gearbeitet. Da wir Wörter benötigen, um das Original zu erhalten, werden sie in der Vorverarbeitungsphase nicht in Kleinbuchstaben geschrieben. Somit gibt es Wörter mit unterschiedlichen Variationen (z. B. "Erde" und "Erde").
Die einzige Möglichkeit, die ich mir vorstellen kann, besteht darin, den Durchschnitt der Vektoren für "Erde" und "Erde" zu ermitteln, um einen einzelnen Vektor zur Darstellung des Wortes zu erstellen. (Da die Abmessungen des Merkmalsvektors ähnlich sind)
Ist das eine "okay" Methode? Wenn dies nicht der Fall ist, wie könnte dieses Problem möglicherweise gut gelöst werden?
Hinweis: Das Verringern aller Wörter in der Vorverarbeitung ist derzeit keine Option.
Bearbeiten: Die Informationen darüber, ob Feature-Dimensionen wirklich linear sind oder nicht, wären ebenfalls hilfreich.
Bearbeiten 2: Kombinieren Sie beide Antworten aus patapouf_ai
und yazhi
erzielen Sie die besten Ergebnisse. Wie werden diese kombiniert? Der gewichtete Durchschnitt verbesserte die Ergebnisse, aber das Durchführen von Wortfrequenzen durch eine skalierte Sigmoidfunktion ergab die besten Ergebnisse, da die lineare Verwendung von Wortfrequenzen ihnen mehr Bedeutung verleiht als sie tragen.
Die Wörter "Erde" und "Erde" mögen dieselbe Bedeutung haben, aber gemäß dem word2vec-Algorithmus leitet er die semantische Information aus der Position der Wörter ab.
Daher erscheint "Erde" am häufigsten am Anfang des Satzes als Subjekt und "Erde" am Ende meistens in der Objektform. Die nächstgelegenen benachbarten Wörter können sich also unterscheiden, aber insgesamt können beide Sätze Wörter wie "Verschmutzung, Klima, Wasser, Länder" enthalten.
Zusammenfassend lässt sich sagen, dass bei einem größeren Fenster die gleichen semantischen Informationen mit kleinen Änderungen erhalten bleiben, bei denen die "Erde" einige Subjektinformationen und die "Erde" Objektinformationen enthält. Die Mittelwertbildung hat also keinen großen Einfluss und scheint ein möglicher Fall zu sein. Bei geringerer Fenstergröße besteht jedoch eine hohe Wahrscheinlichkeit, dass es unterschiedliche Bedeutungen haben kann.
quelle