Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht.
Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze einem bestimmten Satz mit der Bezeichnung "Sent_123" am ähnlichsten sind.
Können Sie die Beschriftungen je nach Inhalt wiederholen lassen? Wenn sich beispielsweise jeder Satz / Absatz / Dokument auf einen bestimmten Produktartikel bezieht (und für einen bestimmten Produktartikel mehrere Sätze / Absätze / Dokumente vorhanden sind), können Sie die Sätze basierend auf dem Artikel kennzeichnen und dann die Ähnlichkeit zwischen einem Wort oder einem berechnen satz und dieses etikett (was ich für einen durchschnitt aller sätze halte, die mit dem produktartikel zu tun hatten)?
dm=0, dbow_words=1
.doc2vec
Modell bekommt seinen Algorithmus vonword2vec
.In
word2vec
gibt es keine Notwendigkeit , die Worte zu kennzeichnen, weil jedes Wort eigene semantische Bedeutung im Vokabular hat. Im Fall vondoc2vec
muss jedoch angegeben werden, wie viele Wörter oder Sätze eine semantische Bedeutung enthalten, damit der Algorithmus sie als eine einzelne Entität identifizieren kann. Aus diesem Grunde sind wir spezifizierenlabels
odertags
zu Satz oder Absatz je nach dem Grad der semantische Bedeutung gefördert.Wenn wir eine einzelne Bezeichnung für mehrere Sätze in einem Absatz angeben, bedeutet dies, dass alle Sätze im Absatz erforderlich sind, um die Bedeutung zu vermitteln. Wenn wir dagegen allen Sätzen in einem Absatz Variablenbezeichnungen zuweisen, bedeutet dies, dass jeder Satz eine semantische Bedeutung hat und Ähnlichkeiten aufweisen kann oder nicht.
In einfachen Worten
label
bedeutet eine semantische Bedeutung von etwas.quelle
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Ich bin nicht sicher, ob ich das richtig verstehe. Werden nach dem Algorithmus POV alle Sätze mit demselben Tag für die semantische Definition benötigt oder beschreiben alle Sätze mit demselben Tag dasselbe? Im ersten Fall ist kein einzelner Satz für sich allein autark, im zweiten Fall ist ein einzelner Satz autark.