Nun, die Namen sind ziemlich einfach und sollten Ihnen eine klare Vorstellung von Vektordarstellungen geben.
Der Word2Vec-Algorithmus erstellt eine verteilte semantische Darstellung von Wörtern. Es gibt zwei Hauptansätze für das Training: Distributed Bag of Words und das Skip-Gram-Modell. Eine beinhaltet das Vorhersagen der Kontextwörter unter Verwendung eines zentralen Wortes, während die andere das Vorhersagen des Wortes unter Verwendung der Kontextwörter beinhaltet. Sie können darüber in Mikolovs Aufsatz ausführlich lesen .
Dieselbe Idee kann auf Sätze und vollständige Dokumente ausgedehnt werden, wobei statt der Darstellung von Merkmalen für Wörter diese für Sätze oder Dokumente erlernt werden. Um jedoch einen allgemeinen Überblick über einen Satz zu erhalten, betrachten Sie ihn als mathematischen Durchschnitt der Wortvektordarstellungen aller Wörter im Satz. Sie können eine sehr gute Annäherung erhalten, indem Sie nur den Durchschnitt bilden und keinen SatzToVec trainieren, aber das hat natürlich seine Grenzen.
Doc2Vec erweitert die Idee von SatzToVec bzw. Word2Vec, da Sätze auch als Dokumente betrachtet werden können. Die Idee des Trainings bleibt ähnlich. Sie können Mikolov des Doc2Vec lesen Papier für weitere Details.
Zu den Anwendungen zu kommen, würde es von der Aufgabe abhängen. Ein Word2Vec erfasst effektiv semantische Beziehungen zwischen Wörtern und kann daher zur Berechnung von Wortähnlichkeiten verwendet oder als Merkmal für verschiedene NLP-Aufgaben wie die Stimmungsanalyse usw. verwendet werden nicht nur Worte. Wenn Sie beispielsweise herausfinden möchten, ob zwei Stapelüberlauffragen Duplikate voneinander sind.
Eine einfache Google-Suche führt Sie zu einer Reihe von Anwendungen dieser Algorithmen.