Was sind die Unterschiede zwischen Latent Semantic Analysis (LSA), Latent Semantic Indexing (LSI) und Singular Value Decomposition (SVD)?

15

Diese Begriffe werden oft zusammengewürfelt, aber ich würde gerne wissen, was Ihrer Meinung nach die Unterschiede sind, wenn überhaupt.

Vielen Dank

Neil McGuigan
quelle

Antworten:

12

LSA und LSI werden meist synonym verwendet, wobei die Information Retrieval Community sie normalerweise als LSI bezeichnet. LSA / LSI verwendet SVD, um die Termdokumentmatrix A in eine Termkonzeptmatrix U, eine Singularwertmatrix S und eine Konzeptdokumentmatrix V in der Form A = USV 'zu zerlegen. Die Wikipedia-Seite enthält eine detaillierte Beschreibung der latenten semantischen Indizierung .

Ebenholz1
quelle
8

Während LSA und LSI SVD verwenden, um ihre Magie zu entfalten, gibt es eine rechnerisch und konzeptionell einfachere Methode namens HAL (Hyperspace Analogue to Language), die den Text durchsucht und die vorherigen und nachfolgenden Kontexte verfolgt. Aus diesen (oft gewichteten) Co-Auftritts-Matrizen werden Vektoren extrahiert und bestimmte Wörter ausgewählt, um den semantischen Raum zu indizieren. In vielerlei Hinsicht habe ich die Gewissheit, dass es genauso gut funktioniert wie LSA, ohne dass der mathematisch / konzeptionell komplexe Schritt der SVD erforderlich ist. Siehe Lund & Burgess, 1996 für Details.

russellpierce
quelle
4
... fasst frühere Arbeiten von Finch und Chater (1992, 1994), Schütze (1993) und anderen zusammen. HAL, LSA und andere Arbeiten nach dem Stand der Technik erzeugen ein Ähnlichkeitsmaß für Wörter, indem sie ihre kontextuelle Ähnlichkeit berechnen. (Dies ist Shephards Ähnlichkeit zweiter Ordnung: Ähnlichkeit erster Ordnung liegt vor, wenn Wort a in der Nähe von Wort b vorkommt; Ähnlichkeit zweiter Ordnung ist, dass Wort a in der Nähe der gleichen Wortarten vorkommt wie Wort b).
Conjugateprior
3
Vergleichen und gegenüberstellen: Für LSA ist der Kontext das vollständige Dokument. Für HAL und andere ist es ein Textfenster, das das Zielwort umgibt. LSA misst die Entfernung in einem linearen Unterraum, der über SVD / PCA extrahiert wurde, und der andere befasst sich mit Entfernungen im ursprünglichen Raum der Anzahl der umgebenden Wörter.
Conjugateprior
6

NMF und SVD sind beide Matrixfaktorisierungsalgorithmen. Wikipedia hat einige relevante Informationen zu NMF .

AA=AA ), sind die Singulärwerte einfach die Absolutwerte des Eigenwerts. In jedem Fall sind die Singularwerte nicht negativ, und der Verlust des Vorzeichens der Eigenwerte ist der Preis, den Sie dafür zahlen, dass Sie mit nicht quadratischen Matrizen arbeiten können.

Die anderen Responder haben LSI / LSA abgedeckt ...

Emre
quelle
es sollte eine Kovarianzmatrix sein, oder? nicht die Korrelationsmatrix.
Rafael
Ja, es sei denn, Sie zentrieren zuerst Ihre Variablen.
Emre
nach der Normalisierung von Variablen wird es Korrelationsmatrix?
Rafael
Die Normalisierung zentriert sich mit der Skalierung, das ist also anders.
Emre