LSA vs. PCA (Dokumentenclustering)

25

Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären.

Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die SVD-Zerlegung auf die Term-Kovarianz-Matrix angewendet wird, während sie in LSA die Term-Dokument-Matrix ist. Gibt es noch etwas?

Zweitens: Welche Rolle spielen sie beim Clustering von Dokumenten? Aus dem, was ich bisher gelesen habe, schließe ich, dass ihr Zweck darin besteht, die Dimensionalität zu verringern, das Rauschen zu verringern und die Beziehungen zwischen Begriffen in die Darstellung einzubeziehen. Nach der Ausführung von PCA oder LSA werden traditionelle Algorithmen wie k-means oder agglomerative Methoden auf den reduzierten Termraum angewendet und typische Ähnlichkeitsmaße wie der Kosinusabstand verwendet. Bitte korrigieren Sie mich, falls ich falsch liege.

Drittens - spielt es eine Rolle, ob die TF / IDF-Termvektoren vor dem Anwenden von PCA / LSA normalisiert werden oder nicht? Und sollten sie danach wieder normalisiert werden?

Viertens: Nehmen wir an, ich habe einige Cluster für den durch LSA / PCA reduzierten Begriff "Space" durchgeführt. Wie soll ich nun den Ergebnis-Clustern Beschriftungen zuweisen? Da die Dimensionen nicht den tatsächlichen Wörtern entsprechen, ist dies ein schwieriges Thema. Die einzige Idee, die mir in den Sinn kommt, ist die Berechnung von Zentroiden für jeden Cluster unter Verwendung der ursprünglichen Termvektoren und die Auswahl der Terme mit der höchsten Gewichtung, aber das klingt nicht sehr effizient. Gibt es spezielle Lösungen für dieses Problem? Ich konnte nichts finden.

Für die Klärung dieser Fragen bin ich sehr dankbar.

user1315305
quelle
LSA oder LSI: gleich oder verschieden? Wenn Sie LSI = latent semantic indexing meinen, korrigieren und standardisieren Sie bitte.
Nick Cox
3
Sind LSI und LSA zwei verschiedene Dinge? Ich dachte, sie sind gleichwertig.
user1315305
1
Ich habe keine Ahnung; der Punkt ist (bitte), einen Begriff für eine Sache und nicht für zwei zu verwenden; ansonsten ist deine frage noch schwieriger zu verstehen.
Nick Cox
Ok, ich habe es schon korrigiert. Vielen Dank für den Hinweis :)
user1315305
3
Wikipedia erweckt den Eindruck, dass LSA = LSI. Aber LSI ist Korrespondenzanalyse (CA). CA ist wie PCA ein Begriff für statistische Analysen, während LSI / LSA ein Text-Mining-Begriff ist. Suchen Sie also nach Artikeln, die PCA und CA vergleichen.
ttnphns

Antworten:

8
  1. PCA und LSA sind beide Analysen, die SVD verwenden. PCA ist eine allgemeine Klasse von Analysen und kann im Prinzip auf verschiedene Arten auf aufgezählte Textkorpora angewendet werden. Im Gegensatz dazu ist LSA ein sehr klar definiertes Mittel zum Analysieren und Reduzieren von Text. Beide nutzen die Idee, dass Bedeutung aus dem Kontext extrahiert werden kann. In LSA wird der Kontext in den Zahlen durch eine Term-Document-Matrix bereitgestellt. In der von Ihnen vorgeschlagenen PCA wird der Kontext in den Zahlen angegeben, indem eine Begriffskovarianzmatrix bereitgestellt wird (deren Details zur Generierung wahrscheinlich viel mehr über die Beziehung zwischen Ihrer PCA und Ihrer LSA aussagen können). Möglicherweise möchten Sie hier weitere Informationen suchen .
  2. Sie sind hier im Grunde auf dem richtigen Weg. Die genauen Gründe für die Verwendung hängen vom Kontext und den Zielen der Person ab, die mit den Daten spielt.
  3. Die Antwort hängt wahrscheinlich von der Implementierung des von Ihnen verwendeten Verfahrens ab.
  4. Sorgfältig und mit großer Kunst. Die meisten halten die Dimensionen dieser semantischen Modelle für nicht interpretierbar. Beachten Sie, dass Sie mit ziemlicher Sicherheit erwarten, dass es mehr als eine zugrunde liegende Dimension gibt. Wenn es in der Faktoranalyse mehr als eine Dimension gibt, drehen wir die Faktorlösung, um interpretierbare Faktoren zu erhalten. Aus irgendeinem Grund wird dies jedoch in der Regel nicht für diese Modelle durchgeführt. Ihr Ansatz klingt nach einem grundsätzlichen Ansatz, um Ihre Arbeit zu beginnen ... obwohl ich mir nicht sicher bin, ob die Skalierung zwischen Dimensionen ähnlich genug ist, um einer Clusteranalyse-Lösung zu vertrauen. Wenn Sie mit der Bedeutung herumspielen möchten, können Sie auch einen einfacheren Ansatz in Betracht ziehen, bei dem die Vektoren eine direkte Beziehung zu bestimmten Wörtern haben, z . B. HAL .
russellpierce
quelle
6

LSI wird in der Term-Document-Matrix berechnet, während PCA in der Kovarianzmatrix berechnet wird. Dies bedeutet, dass LSI versucht, den besten linearen Unterraum zur Beschreibung des Datensatzes zu finden, während PCA versucht, den besten parallelen linearen Unterraum zu finden.

Gaurav Singh
quelle
4
Nick, könntest du mehr Details über den Unterschied zwischen dem besten linearen Unterraum und dem besten parallelen linearen Unterraum liefern? Hängt das mit Orthogonalität zusammen? Soll ich diese als neue Frage stellen?
Russellpierce
1
Am besten in welchem ​​Sinne? Minimierung der Frobinius-Norm des Rekonstruktionsfehlers? In diesem Fall klingt das für mich nach PCA.
Andrew M
2

Nur eine Erweiterung von Russellpierces Antwort.

1) LSA ist im Wesentlichen PCA, das auf Textdaten angewendet wird.Wenn Sie SVD für PCA verwenden, wird es nicht auf die Kovarianzmatrix angewendet, sondern direkt auf die Feature-Sample-Matrix. Dies ist nur die Term-Document-Matrix in LSA. Der Unterschied besteht darin, dass PCA häufig eine funktionsbezogene Normalisierung der Daten erfordert, LSA jedoch nicht.

Es gibt einen schönen Vortrag von Andrew Ng , der die Zusammenhänge zwischen PCA und LSA zeigt.

2/3) Da die Dokumentdaten unterschiedlich lang sind, ist es normalerweise hilfreich, die Größe zu normalisieren. Hier sollte die Normalisierung in Bezug auf die Stichprobe verwendet werden, nicht die Normalisierung in Bezug auf die Merkmale. In der Praxis fand ich es hilfreich, sowohl vor als auch nach der LSI zu normalisieren.

Wenn die Metrik des Clustering-Algorithmus nicht von der Größe (z. B. dem Kosinusabstand) abhängt, kann der letzte Normalisierungsschritt weggelassen werden.

4) Es ist im Allgemeinen schwierig, aussagekräftige Bezeichnungen aus Clustern zu erhalten. Einige Leute extrahieren Ausdrücke / Phrasen, die den Unterschied in der Verteilung zwischen dem Korpus und dem Cluster maximieren. Eine andere Möglichkeit ist die Verwendung von halbüberwachtem Clustering mit vordefinierten Beschriftungen.

dontloo
quelle