Vergleich zweier Korpora mit dem Themenmodell

6

Ich möchte zwei Korpora (zwei verschiedene Textsammlungen) mithilfe der Themenmodellierung vergleichen. Ich habe das Modell separat für die beiden Sammlungen trainiert und ähnliche Themen anhand ihrer häufigen Wörter manuell abgeglichen.

Ich habe mich gefragt, ob es eine systematische Möglichkeit gibt, die Themen zwischen zwei Korpora zu vergleichen und ihre Ähnlichkeit zu messen.

Saghi
quelle

Antworten:

4

In meinen Augen ist dies kein gültiger Ansatz.

Beachten Sie, dass es für einen Korpus kein einziges Themenmodell gibt (bei einigen Parametern wie der Anzahl der Themen und dem Algorithmus für die Themenmodellierung). Unterschiedliche Läufe mit unterschiedlichen zufälligen Samen geben Ihnen unterschiedliche Themenmodelle für denselben Korpus.

Jeder Vergleich läuft also auf einen Vergleich bestimmter Themenmodelle hinaus, nicht jedoch auf einen Vergleich der Korpora.

Ein Ansatz mit einer besseren Gültigkeit besteht darin, beide Korpora zu einem Superkorpus zu kombinieren, ein Themenmodell davon zu erstellen und dann die Verteilung der Themen in Bezug auf die von den ursprünglichen Korpora 1 und 2 gebildeten Unterkorpora zu untersuchen.


quelle
Danke für die tolle Antwort. Was meinen Sie mit "Untersuchung der Verteilung der Themen in Bezug auf die von den ursprünglichen Korpora 1 und 2 gebildeten Unterkorpora"? Können Sie es bitte weiter ausführen?
Smith
1
@ Smith: Hast du jemals ein Themenmodell gemacht? Sie sollten eine Dokument-Themen-Matrix aus Ihrem Themenmodell erhalten, die für jedes Dokument im Korpus eine Themenkomposition zeigt. Agglomerieren Sie diese Daten entsprechend der Subkorpora, aus der Ihr Korpus besteht, und Sie haben sie.