Sind Word2Vec und Doc2Vec sowohl Verteilungsdarstellung als auch verteilte Darstellung?

10

Ich habe gelesen, dass die Verteilungsdarstellung auf der Verteilungshypothese basiert, dass Wörter, die in einem ähnlichen Kontext vorkommen, tendenziell ähnliche Bedeutungen haben.

Word2Vec und Doc2Vec werden beide gemäß dieser Hypothese modelliert. Aber in der Originalarbeit sind sogar sie als Distributed representation of words and phrasesund betitelt Distributed representation of sentences and documents. Basieren diese Algorithmen also auf einer Verteilungsdarstellung oder einer verteilten Darstellung?

Wie wäre es mit anderen Modellen wie LDA und LSA.

Yazhi
quelle

Antworten:

5

Tatsächlich basiert Word2Vec / Doc2Vec darauf, distributional hypothesiswo der Kontext für jedes Wort die in der Nähe befindlichen Wörter sind. Ebenso nimmt LSA das gesamte Dokument als Kontext. Beide Techniken lösen das word embeddingProblem - binden Sie Wörter in einen kontinuierlichen Vektorraum ein, während semantisch verwandte Wörter nahe beieinander bleiben.

Andererseits ist LDA nicht dafür gemacht, dasselbe Problem zu lösen. Sie befassen sich mit einem anderen Problem topic modeling, das darin besteht, latente Themen in einer Reihe von Dokumenten zu finden.

Tu N.
quelle
Ich erhielt eine Antwort von Google-Gruppen, dass es sowohl verteilt als auch verteilt in verschiedenen Perspektiven ist. Verteilung in Bezug auf die verwendete Hypothese und Verteilung in Bezug auf die verteilten Merkmale im Vektorraum.
Yazhi
Ja, die Darstellung ist in dem Sinne verteilt, dass ein Wortvektor mehrere Konzepte erfasst. Jedes Konzept ist selbst ein Vektor. Zum Beispiel: könnten erfassen zwei Konzepte in Geschlecht und , Captures in Geschlecht und . Deshalbvkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
Tu N.
2

Turian, Joseph, Lev Ratinov und Yoshua Bengio. " Wortrepräsentationen: eine einfache und allgemeine Methode für halbüberwachtes Lernen ." Tagungsband der 48. Jahrestagung des Vereins für Computerlinguistik. Association for Computational Linguistics, 2010. Definieren Sie Verteilungsdarstellungen und verteilte Darstellungen wie folgt:

  • Eine Verteilungswortdarstellung basiert auf einer Koexistenzmatrix der Größe , wobei die Vokabulargröße ist, jede Zeile die Anfangsdarstellung des Wortes ist und jede Spalte ein Kontext ist. Sahlgren (2006) und Turney und Pantel (2010) beschreiben eine Handvoll möglicher Entwurfsentscheidungen bei der Konstruktion von , einschließlich der Auswahl der Kontexttypen (linkes Fenster? Rechtes Fenster? Fenstergröße?) Und der Art der Frequenzzählung (roh? Binär? Tf) -idf?). hat die Dimensionalität , die zu groß sein kann, um zu verwendenFW×CWFwwFcFFwWFwals Merkmale für Wort w in einem überwachten Modell. Man kann mit einer Funktion g auf die Matrix f der Größe W × d abbilden , wobei ist, wobei f = g (F). repräsentiert das Wort als einen Vektor mit Dimensionen. Die Wahl von ist eine weitere Entwurfsentscheidung, obwohl sie möglicherweise nicht so wichtig ist wie die Statistiken, die zur anfänglichen Konstruktion von .Fd<<CFwwdgF

  • Eine verteilte Darstellung ist dicht, niedrigdimensional und realwertig. Verteilte Wortdarstellungen werden als Worteinbettungen bezeichnet. Jede Dimension der Einbettung stellt ein latentes Merkmal des Wortes dar und erfasst hoffentlich nützliche syntaktische und semantische Eigenschaften. Eine verteilte Darstellung ist kompakt in dem Sinne, dass sie eine exponentielle Anzahl von Clustern in der Anzahl von Dimensionen darstellen kann.

Zu Ihrer Information: Was ist der Unterschied zwischen Wortvektoren, Wortdarstellungen und Vektoreinbettungen?

Franck Dernoncourt
quelle
2
Die gleiche Verwirrung bleibt auch in der Antwort. Es hat Eigenschaften aus beiden Darstellungen. Mal sehen, was es gemeinsam hat. Distributional: Es hat eine Matrix der Größe WxC und wird dann auf Wxd reduziert, wobei d die Größe des Einbettungsvektors ist. Es verwendet Fenstergrößen, um den Kontext zu bestimmen. Distributed: Dichte, niedrigdimensionale Vektoren. In diesen Dimensionen bleiben latente Merkmale (semantische Eigenschaften) erhalten.
Yazhi
2

Die Antwort von Andrey Kutuzov über Google Groups war zufriedenstellend

Ich würde sagen, dass word2vec-Algorithmen auf beiden basieren.

Wenn Leute sagen distributional representation, meinen sie normalerweise den sprachlichen Aspekt: ​​Bedeutung ist Kontext, kennen das Wort von seiner Firma und anderen berühmten Zitaten.

Aber wenn Leute sagen distributed representation, hat es meistens nichts mit Linguistik zu tun. Es geht mehr um Informatik. Wenn ich Mikolov und andere richtig verstehe, bedeutet das Wort distributedin ihren Papieren, dass jede einzelne Komponente einer Vektordarstellung keine eigene Bedeutung hat. Die interpretierbaren Merkmale (z. B. Wortkontexte im Fall von word2vec) sind ausgeblendet und gehören distributedzu nicht interpretierbaren Vektorkomponenten: Jede Komponente ist für mehrere interpretierbare Merkmale verantwortlich, und jedes interpretierbare Merkmal ist an mehrere Komponenten gebunden.

Word2vec (und doc2vec) verwenden verteilte Darstellungen technisch, um die lexikalische Semantik darzustellen. Gleichzeitig basiert es konzeptionell auf einer Verteilungshypothese: Es funktioniert nur, weil die Verteilungshypothese wahr ist (Wortbedeutungen korrelieren mit ihren typischen Kontexten).

Aber natürlich werden oft die Begriffe distributedund distributionalsynonym verwendet, was zu Missverständnissen führt :)

Yazhi
quelle