Themenmodelle und Methoden zum gemeinsamen Auftreten von Wörtern

26

Beliebte Themenmodelle wie LDA bilden in der Regel Clusterwörter, die in der Regel zusammen in einem Thema (Cluster) vorkommen.

Was ist der Hauptunterschied zwischen solchen Themenmodellen und anderen einfachen Clustering-Ansätzen auf der Basis von Koexistenz wie PMI? (PMI steht für Pointwise Mutual Information und wird verwendet, um die Wörter zu identifizieren, die zusammen mit einem bestimmten Wort vorkommen.)

kanzen_master
quelle

Antworten:

32

In letzter Zeit ist eine riesige Menge an Literatur angewachsen, in der diskutiert wird, wie Informationen aus geschriebenen Texten extrahiert werden können. Daher beschreibe ich nur vier Meilensteine ​​/ populäre Modelle und ihre Vor- und Nachteile und hebe damit (einige) der Hauptunterschiede hervor (oder zumindest, was ich für die Hauptunterschiede / wichtigsten Unterschiede halte).

Sie erwähnen den "einfachsten" Ansatz, der darin besteht, die Dokumente zu gruppieren, indem sie mit einer vordefinierten Abfrage von Begriffen abgeglichen werden (wie in PMI). Diese lexikalischen Übereinstimmungsmethoden können jedoch aufgrund von Polysemie (Mehrfachbedeutungen) und Synonymie (Mehrfachwörter mit ähnlichen Bedeutungen) einzelner Begriffe ungenau sein.

Abhilfe schafft die latente semantische Indizierung ( LSI ), indem Begriffe und Dokumente über eine Singular-Value-Dekomposition in einen latenten semantischen Raum abgebildet werden. Die LSI-Ergebnisse sind aussagekräftigere Bedeutungsindikatoren als einzelne Begriffe. Ein Nachteil von LSI ist jedoch, dass es an einer soliden probabilistischen Grundlage mangelt.

Dies wurde teilweise durch die Erfindung des probabilistischen LSI ( pLSI ) gelöst . In pLSI-Modellen wird jedes Wort in einem Dokument aus einem Mischungsmodell gezogen, das über multinomiale Zufallsvariablen spezifiziert wird (was auch Ko-Vorkommen höherer Ordnung ermöglicht, wie in @sviatoslav hong erwähnt). Dies war ein wichtiger Schritt vorwärts bei der probabilistischen Textmodellierung, der jedoch unvollständig war, da er auf Dokumentebene keine probabilistische Struktur bietet.

Latent Dirichlet Allocation ( LDA ) mildert dies und war das erste vollständig probabilistische Modell für Textclustering. Blei et al. (2003) zeigen, dass pLSI ein maximal a-posteriori geschätztes LDA-Modell unter einem einheitlichen Dirichlet ist.

Es ist zu beachten, dass die oben genannten Modelle (LSI, pLSI, LDA) gemeinsam haben, dass sie auf der "Bag-of-Word" -Annahme basieren - dh, dass innerhalb eines Dokuments Wörter austauschbar sind, dh die Reihenfolge der Wörter in einem Dokument kann vernachlässigt werden. Diese Annahme der Austauschbarkeit bietet eine weitere Rechtfertigung für LDA gegenüber den anderen Ansätzen: Unter der Annahme, dass nicht nur Wörter in Dokumenten austauschbar sind, sondern auch Dokumente, dh die Reihenfolge der Dokumente innerhalb eines Korpus, kann der Satz von De Finetti vernachlässigt werdengibt an, dass jede Menge austauschbarer Zufallsvariablen eine Darstellung als Mischungsverteilung hat. Wenn also die Austauschbarkeit von Dokumenten und Wörtern innerhalb von Dokumenten angenommen wird, wird ein Mischmodell für beide benötigt. Genau dies erreicht LDA im Allgemeinen, PMI oder LSI jedoch nicht (und sogar pLSI ist nicht so schön wie LDA).

Momo
quelle
2
1/2 Danke! Sehr deutlich. Lassen Sie mich überprüfen, ob ich das richtig verstanden habe: In LSI werden Dokumente aus einer Mischung von Wörtern (ohne Themenbegriff) gebildet, und Wörter und Dokumente werden mithilfe von SVD einem semantischen Raum mit einer niedrigeren Dimension zugeordnet. Da Wörter mit ähnlicher semantischer Bedeutung näher abgebildet werden, kann es sich um Synonyme handeln, hat jedoch Probleme mit der Polisemie. pLSI löst das Problem der Polisemie durch die Einführung des Themenkonzepts. In pLSI werden Wörter aus einer multinomialen Verteilung von Wörtern (Themen) gezeichnet, dasselbe Wort kann zu mehreren Themen gehören und ein Dokument hat mehrere Themen, obwohl dies nicht explizit modelliert ist.
kanzen_master
2
Ich denke, im Allgemeinen verstehst du es richtig. Einige kleinere Korrekturen: LSI funktioniert sowohl mit Polysemie als auch mit Synomie. pLSI ist im Grunde genommen eine Formulierung, um das zu erreichen, was LSI mit den Werkzeugen der latenten Klassenanalyse / Mixturemodelle und der Wahrscheinlichkeit und nicht nur der linearen Algebra anstrebt. LDA ist im Vergleich zu pLSI ein vollständig generatives Modell, bei dem eine Themenverteilung pro Dokument angegeben wird.
Momo
1
In Bezug auf Ihre Punkte zur Überanpassung und Vorhersage bin ich für eine qualifizierte Aussage nicht sachkundig genug. Ich verstehe jedoch nicht, warum LDA weniger anfällig für Überanpassungen ist als pLSI (da LDA im Grunde genommen nur ein Vorgängermodell vor einem pLSI-Modell hinzufügt). Beide haben keine eingebaute Korrektur für Überanpassung oder dergleichen. Eine "Vorhersage" neuer Dokumente könnte in der Tat mit einem vollständig generativen Modell wie LDA einfacher oder machbarer sein, siehe stats.stackexchange.com/questions/9315/…. Aber ich würde LDA als unbeaufsichtigtes, beschreibendes Modell ansehen.
Momo
1
Danke noch einmal! Nur zwei letzte Fragen: (1) In Bezug auf Polysemie gibt Hoffman in diesem PDF am Ende von Seite 3 an , dass einer der Unterschiede zwischen PLSI und LSI Polysemie ist, da dasselbe Wort zu verschiedenen Wortverteilungen (Themen) gehören kann. Deshalb dachte ich, dass LSI mit Polysemie nicht funktioniert. (2) In Bezug auf Überanpassung gibt dieser Blog an , dass eine lineare Erhöhung der Parameter darauf hindeutet, dass das Modell anfällig für Überanpassung ist. Was denkst du ?
kanzen_master
2
Kein Problem. Du weißt schon viel über diese Dinge, also lerne ich auch Sachen. ad (1) Nun, wie üblich kommt es darauf an: LSI kann aufgrund der linearen Kombination von Begriffen wie in PCA mit Polysemie umgehen. Besser geht es mit Synonymen, bis zu einem gewissen Grad aber auch mit Polysemie. Grundsätzlich sind polysemartige Wörter, die ähnlich sind, hinzugefügte Komponenten von Wörtern, die eine ähnliche Bedeutung haben. Es ist jedoch weitaus weniger gut als pLSI, da jedes Vorkommen eines Wortes als einzelner Punkt im Raum dargestellt wird. Die Wortrepräsentation ist daher ein Durchschnitt aller unterschiedlichen Bedeutungen des Wortes im Korpus.
Momo
5

LDA kann eine höhere Ordnung von gleichzeitigen Vorkommen von Begriffen erfassen (aufgrund der Annahme, dass jedes Thema eine multinomiale Verteilung über Begriffe ist), was nicht durch einfaches Berechnen des PMI zwischen Begriffen möglich ist.

Liangjie Hong
quelle
4
Vielen Dank! Was ist die Definition von "hoher Ordnung von Co-Vorkommen"?
kanzen_master
5

Ich bin vielleicht 3 Jahre zu spät, aber ich möchte Ihre Frage am Beispiel der "hohen Ordnung von Co-Vorkommen" weiterverfolgen.

Wenn der Term t1 zusammen mit dem Term t2 auftritt, der zusammen mit dem Term t3 auftritt, ist der Term t1 im Grunde genommen das gemeinsame Auftreten 2. Ordnung mit dem Term t3. Sie können zu einer höheren Ordnung wechseln, wenn Sie möchten, aber am Ende bestimmen Sie, wie ähnlich zwei Wörter sein sollen.

Suthee
quelle