Ich habe LDA für ein Korpus von Dokumenten verwendet und einige Themen gefunden. Die Ausgabe meines Codes besteht aus zwei Matrizen, die Wahrscheinlichkeiten enthalten. Wahrscheinlichkeiten für ein Dokumentthema und die Wahrscheinlichkeiten für das andere Wortthema. Aber ich weiß nicht, wie ich diese Ergebnisse verwenden soll, um das Thema eines neuen Dokuments vorherzusagen. Ich benutze Gibbs Sampling. Weiß jemand wie? Vielen Dank
text-mining
topic-models
Hossein
quelle
quelle
Antworten:
Ich würde versuchen, einzusteigen. Dies bezieht sich darauf, ein neues Dokument zu nehmen, es zum Korpus hinzuzufügen und dann die Gibbs-Stichprobe nur für die Wörter in diesem neuen Dokument auszuführen, wobei die Themenzuweisungen der alten Dokumente gleich bleiben. Dies konvergiert normalerweise schnell (möglicherweise 5-10-20 Iterationen), und Sie müssen Ihr altes Korpus nicht abtasten, sodass es auch schnell läuft. Am Ende haben Sie die Themenzuordnung für jedes Wort im neuen Dokument. Auf diese Weise können Sie die Themen in diesem Dokument verteilen.
In Ihrem Gibbs-Sampler haben Sie wahrscheinlich etwas Ähnliches wie den folgenden Code:
Das Einklappen ist identisch, mit der Ausnahme, dass Sie mit den vorhandenen Matrizen beginnen, ihnen die Token des neuen Dokuments hinzufügen und die Stichprobe nur für die neuen Token durchführen. Dh:
quelle