Kann LDA verwendet werden, um das Thema eines einzelnen Dokuments zu erkennen?
Ja, in seiner speziellen Darstellung von "Thema" und mit einem Schulungskorpus von (normalerweise verwandten) Dokumenten.
LDA repräsentiert Themen als Verteilungen über Wörter und Dokumente als Verteilungen über Themen. Das heißt, ein eigentlicher Zweck von LDA besteht darin, eine probabilistische Darstellung jedes Dokuments als eine Reihe von Themen zu erreichen. Beispielsweise kann die LDA-Implementierung in gensim
diese Darstellung für ein bestimmtes Dokument zurückgeben.
Dies hängt jedoch von den anderen Dokumenten im Korpus ab: Jedes Dokument hat eine andere Darstellung, wenn es als Teil eines anderen Korpus analysiert wird.
Dies wird normalerweise nicht als Mangel angesehen: Die meisten Anwendungen von LDA konzentrieren sich auf verwandte Dokumente. Das Papier, in dem LDA vorgestellt wird, wendet es auf zwei Korpora an, einen der Artikel von Associated Press und einen der Abstracts wissenschaftlicher Artikel. Edwin Chens gut zugänglicher Blog-Beitrag wendet LDA auf eine Tranche von E-Mails aus Sarah Palins Zeit als Gouverneur von Alaska an.
Wenn Ihre Anwendung die Trennung von Dokumenten in bekannte, sich gegenseitig ausschließende Klassen erfordert, können von LDA abgeleitete Themen als Funktionen für die Klassifizierung verwendet werden. In der Tat macht das erste Papier genau das mit dem AP-Korpus, mit guten Ergebnissen.
In ähnlicher Weise sortiert Chens Demonstration Dokumente nicht in exklusive Klassen, aber seine Dokumente konzentrieren ihre Wahrscheinlichkeit hauptsächlich auf einzelne LDA-Themen. Wie David Blei in dieser Videovorlesung erklärt , können die Dirichlet-Priors ausgewählt werden, um die Sparsamkeit zu fördern. Einfacher ausgedrückt: "Ein Dokument wird für die Verwendung vieler Themen bestraft", wie seine Folien es ausdrücken. Dies scheint, dass die LDA einem einzelnen, unbeaufsichtigten Thema am nächsten kommen kann, garantiert jedoch nicht, dass jedes Dokument als solches dargestellt wird.