Eine Parallele zwischen LSA und pLSA

9

In der Originalarbeit von pLSA zeichnet der Autor Thomas Hoffman eine Parallele zwischen pLSA- und LSA-Datenstrukturen, die ich mit Ihnen diskutieren möchte.

Hintergrund:

Nehmen wir an, wir haben eine Sammlung von Dokumenten und ein Vokabular von BegriffenN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Ein Korpus kann durch eine Matrix von Koexistenzen dargestellt werden.XN×M

In der Latent Semantic Analisys by SVD wird die Matrix in drei Matrizen faktorisiert: wobei und die Singularwerte sind von und ist der Rang von .X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

Die LSA-Näherung von wird dann berechnet, wobei die drei Matrizen auf ein Niveau , wie in der Abbildung gezeigt:X

X^=U^Σ^VT^
k<s

Geben Sie hier die Bildbeschreibung ein

Wählen Sie in pLSA einen festen Satz von Themen (latente Variablen) Die Näherung von wird berechnet als: wobei die drei Matrizen diejenigen sind, die die Wahrscheinlichkeit des Modells maximieren.Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Aktuelle Frage:

Der Autor gibt an, dass diese Beziehungen bestehen:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

und dass der entscheidende Unterschied zwischen LSA und pLSA die Zielfunktion ist, die verwendet wird, um die optimale Zerlegung / Approximation zu bestimmen.

Ich bin mir nicht sicher, ob er Recht hat, da ich denke, dass die beiden Matrizen unterschiedliche Konzepte darstellen: In LSA ist es eine Annäherung an die Häufigkeit, mit der ein Begriff in einem Dokument erscheint, und in pLSA ist die (geschätzte) ) Wahrscheinlichkeit, dass ein Begriff im Dokument erscheint.X^

Können Sie mir helfen, diesen Punkt zu klären?

Angenommen, wir haben die beiden Modelle auf einem Korpus unter Berücksichtigung eines neuen Dokuments berechnet. In LSA verwende ich die Näherung als: d

d^=d×V×VT
  1. Ist das immer gültig?
  2. Warum erhalte ich kein aussagekräftiges Ergebnis, wenn ich dasselbe Verfahren auf pLSA anwende?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Vielen Dank.

Aslan986
quelle

Antworten:

12

Der Einfachheit halber gebe ich hier den Zusammenhang zwischen LSA und nicht negativer Matrixfaktorisierung (NMF) an und zeige dann, wie eine einfache Modifikation der Kostenfunktion zu pLSA führt. Wie bereits erwähnt, sind LSA und pLSA beide Faktorisierungsmethoden in dem Sinne, dass bis zur Normalisierung der Zeilen und Spalten die niedrigrangige Zerlegung der Dokumenttermmatrix:

X=UΣD

mit vorherigen Notationen. Einfacher kann die Dokumenttermmatrix als Produkt von zwei Matrizen geschrieben werden:

X=ABT

wobei und . Für LSA wird die Entsprechung mit der vorherigen Formel erhalten, indem und . B U M × s A = U AN×sBM×s B=VA=UΣB=VΣ

Ein einfacher Weg, um den Unterschied zwischen LSA und NMF zu verstehen, ist die Verwendung ihrer geometrischen Interpretation:

  • LSA ist die Lösung von:

    minA,BXABTF2,
  • NMF- ist die Lösung von: L2

    minA0,B0XABTF2,
  • NMF-KL entspricht pLSA und ist die Lösung von:

    minA0,B0KL(X||ABT).

wobei die Kullback-Leibler- Divergenz zwischen den Matrizen und . Es ist leicht zu erkennen, dass alle oben genannten Probleme keine eindeutige Lösung haben, da man mit einer positiven Zahl multiplizieren und dividieren kannKL(X||Y)=ijxijlogxijyijXYABdurch die gleiche Zahl, um den gleichen Zielwert zu erhalten. Daher wählen Menschen im Fall von LSA normalerweise eine orthogonale Basis, die nach abnehmenden Eigenwerten sortiert ist. Dies ist durch die SVD-Zerlegung gegeben und identifiziert die LSA-Lösung, aber jede andere Wahl wäre möglich, da sie keinen Einfluss auf die meisten Operationen hat (Kosinusähnlichkeit, oben erwähnte Glättungsformel usw.). - Im Fall von NMF ist eine orthogonale Zerlegung nicht möglich, aber die Zeilen von sind normalerweise auf eins beschränkt, da sie eine direkte probabilistische Interpretation als . Wenn zusätzlich die Zeilen von normalisiert werden (dh Summe zu Eins), müssen die Zeilen von zu Eins summiert werden, was zur probabilistischen Interpretation führtAp(zk|di)XBp(fj|zk) . Es gibt einen kleinen Unterschied mit der Version von Plsa in der obigen Frage gegeben , weil die Spalten von bis Summe zu einem beschränkt sind, so dass die Werte in sind , aber der Unterschied ist nur eine Änderung der Parametrisierung , das Problem bleibt gleich.AAp(di|zk)

Um die erste Frage zu beantworten: Der Unterschied zwischen LSA und pLSA (und anderen NMF-Algorithmen) hat etwas Feines: Die Nicht-Negativitätsbeschränkungen induzieren einen "Clustering-Effekt", der im klassischen LSA-Fall aufgrund des Singular-Werts nicht gültig ist Die Zersetzungslösung ist rotationsinvariant. Die Nicht-Negativitäts-Einschränkungen brechen diese Rotationsinvarianz irgendwie auf und geben Faktoren mit einer Art semantischer Bedeutung (Themen in der Textanalyse). Das erste Papier, das es erklärt, ist:

Donoho, David L. und Victoria C. Stodden. "Wann führt eine nicht negative Matrixfaktorisierung zu einer korrekten Zerlegung in Teile?" Fortschritte in neuronalen Informationsverarbeitungssystemen 16: Tagungsband 2003. MIT Press, 2004. [Link]

Ansonsten wird hier die Beziehung zwischen PLSA und NMF beschrieben:

Ding, Chris, Tao Li und Wei Peng. "Zur Äquivalenz zwischen nicht negativer Matrixfaktorisierung und probabilistischer latenter semantischer Indizierung." Computational Statistics & Data Analysis 52.8 (2008): 3913 & ndash; 3927. [Verknüpfung]

Guillaume
quelle