Ich habe gelesen, dass die Verteilungsdarstellung auf der Verteilungshypothese basiert, dass Wörter, die in einem ähnlichen Kontext vorkommen, tendenziell ähnliche Bedeutungen haben.
Word2Vec und Doc2Vec werden beide gemäß dieser Hypothese modelliert. Aber in der Originalarbeit sind sogar sie als Distributed representation of words and phrases
und betitelt Distributed representation of sentences and documents
. Basieren diese Algorithmen also auf einer Verteilungsdarstellung oder einer verteilten Darstellung?
Wie wäre es mit anderen Modellen wie LDA und LSA.
male
royal
female
royal
Turian, Joseph, Lev Ratinov und Yoshua Bengio. " Wortrepräsentationen: eine einfache und allgemeine Methode für halbüberwachtes Lernen ." Tagungsband der 48. Jahrestagung des Vereins für Computerlinguistik. Association for Computational Linguistics, 2010. Definieren Sie Verteilungsdarstellungen und verteilte Darstellungen wie folgt:
Zu Ihrer Information: Was ist der Unterschied zwischen Wortvektoren, Wortdarstellungen und Vektoreinbettungen?
quelle
Distributional
: Es hat eine Matrix der Größe WxC und wird dann auf Wxd reduziert, wobei d die Größe des Einbettungsvektors ist. Es verwendet Fenstergrößen, um den Kontext zu bestimmen.Distributed
: Dichte, niedrigdimensionale Vektoren. In diesen Dimensionen bleiben latente Merkmale (semantische Eigenschaften) erhalten.Die Antwort von Andrey Kutuzov über Google Groups war zufriedenstellend
quelle