In letzter Zeit ist eine riesige Menge an Literatur angewachsen, in der diskutiert wird, wie Informationen aus geschriebenen Texten extrahiert werden können. Daher beschreibe ich nur vier Meilensteine / populäre Modelle und ihre Vor- und Nachteile und hebe damit (einige) der Hauptunterschiede hervor (oder zumindest, was ich für die Hauptunterschiede / wichtigsten Unterschiede halte).
Sie erwähnen den "einfachsten" Ansatz, der darin besteht, die Dokumente zu gruppieren, indem sie mit einer vordefinierten Abfrage von Begriffen abgeglichen werden (wie in PMI). Diese lexikalischen Übereinstimmungsmethoden können jedoch aufgrund von Polysemie (Mehrfachbedeutungen) und Synonymie (Mehrfachwörter mit ähnlichen Bedeutungen) einzelner Begriffe ungenau sein.
Abhilfe schafft die latente semantische Indizierung ( LSI ), indem Begriffe und Dokumente über eine Singular-Value-Dekomposition in einen latenten semantischen Raum abgebildet werden. Die LSI-Ergebnisse sind aussagekräftigere Bedeutungsindikatoren als einzelne Begriffe. Ein Nachteil von LSI ist jedoch, dass es an einer soliden probabilistischen Grundlage mangelt.
Dies wurde teilweise durch die Erfindung des probabilistischen LSI ( pLSI ) gelöst . In pLSI-Modellen wird jedes Wort in einem Dokument aus einem Mischungsmodell gezogen, das über multinomiale Zufallsvariablen spezifiziert wird (was auch Ko-Vorkommen höherer Ordnung ermöglicht, wie in @sviatoslav hong erwähnt). Dies war ein wichtiger Schritt vorwärts bei der probabilistischen Textmodellierung, der jedoch unvollständig war, da er auf Dokumentebene keine probabilistische Struktur bietet.
Latent Dirichlet Allocation ( LDA ) mildert dies und war das erste vollständig probabilistische Modell für Textclustering. Blei et al. (2003) zeigen, dass pLSI ein maximal a-posteriori geschätztes LDA-Modell unter einem einheitlichen Dirichlet ist.
Es ist zu beachten, dass die oben genannten Modelle (LSI, pLSI, LDA) gemeinsam haben, dass sie auf der "Bag-of-Word" -Annahme basieren - dh, dass innerhalb eines Dokuments Wörter austauschbar sind, dh die Reihenfolge der Wörter in einem Dokument kann vernachlässigt werden. Diese Annahme der Austauschbarkeit bietet eine weitere Rechtfertigung für LDA gegenüber den anderen Ansätzen: Unter der Annahme, dass nicht nur Wörter in Dokumenten austauschbar sind, sondern auch Dokumente, dh die Reihenfolge der Dokumente innerhalb eines Korpus, kann der Satz von De Finetti vernachlässigt werdengibt an, dass jede Menge austauschbarer Zufallsvariablen eine Darstellung als Mischungsverteilung hat. Wenn also die Austauschbarkeit von Dokumenten und Wörtern innerhalb von Dokumenten angenommen wird, wird ein Mischmodell für beide benötigt. Genau dies erreicht LDA im Allgemeinen, PMI oder LSI jedoch nicht (und sogar pLSI ist nicht so schön wie LDA).
LDA kann eine höhere Ordnung von gleichzeitigen Vorkommen von Begriffen erfassen (aufgrund der Annahme, dass jedes Thema eine multinomiale Verteilung über Begriffe ist), was nicht durch einfaches Berechnen des PMI zwischen Begriffen möglich ist.
quelle
Ich bin vielleicht 3 Jahre zu spät, aber ich möchte Ihre Frage am Beispiel der "hohen Ordnung von Co-Vorkommen" weiterverfolgen.
Wenn der Term t1 zusammen mit dem Term t2 auftritt, der zusammen mit dem Term t3 auftritt, ist der Term t1 im Grunde genommen das gemeinsame Auftreten 2. Ordnung mit dem Term t3. Sie können zu einer höheren Ordnung wechseln, wenn Sie möchten, aber am Ende bestimmen Sie, wie ähnlich zwei Wörter sein sollen.
quelle