Ich habe vor einigen Vorlesungen im Unterricht etwas über PCA gelernt, und als ich mehr über dieses faszinierende Konzept erfuhr, lernte ich etwas über spärliche PCA.
Ich wollte fragen, ob ich mich nicht irre: Wenn Sie in PCA Datenpunkte mit p Variablen haben, können Sie jeden Datenpunkt im p- dimensionalen Raum darstellen, bevor Sie PCA anwenden. Nach dem Anwenden von PCA können Sie es wieder im selben dimensionalen Raum darstellen, aber dieses Mal enthält die erste Hauptkomponente die größte Varianz, die zweite die zweitgrößte Varianzrichtung und so weiter. So können Sie die letzten Hauptkomponenten eliminieren, da sie keinen großen Datenverlust verursachen, und Sie können die Daten komprimieren. Recht?
Sparse PCA wählt Hauptkomponenten so aus, dass diese Komponenten in ihren Vektorkoeffizienten weniger Nicht-Null-Werte enthalten.
Wie soll Ihnen das helfen, Daten besser zu interpretieren? Kann jemand ein Beispiel geben?
quelle
Antworten:
Ob eine spärliche PCA leichter zu interpretieren ist als eine Standard-PCA oder nicht, hängt von dem zu untersuchenden Datensatz ab. So denke ich darüber: Manchmal interessiert man sich mehr für die PCA-Projektionen (niedrig dimensionale Darstellung der Daten) und manchmal - für die Hauptachsen; Nur im letzteren Fall kann eine spärliche PCA einen Nutzen für die Interpretation haben. Lassen Sie mich einige Beispiele nennen.
Ich arbeite z. B. mit neuronalen Daten (gleichzeitige Aufzeichnung vieler Neuronen) und wende PCA- und / oder verwandte Dimensionalitätsreduktionstechniken an, um eine niedrigdimensionale Darstellung der neuronalen Populationsaktivität zu erhalten. Ich habe vielleicht 1000 Neuronen (dh meine Daten leben im 1000-dimensionalen Raum) und möchte sie auf die drei Hauptachsen projizieren. Was diese Achsen sind, ist für mich völlig irrelevant, und ich habe nicht die Absicht, diese Achsen in irgendeiner Weise zu "interpretieren". Was mich interessiert, ist die 3D-Projektion (da die Aktivität von der Zeit abhängt, erhalte ich eine Flugbahn in diesem 3D-Raum). Mir geht es also gut, wenn jede Achse alle 1000 Koeffizienten ungleich Null hat.
Andererseits könnte jemand mit "greifbareren" Daten arbeiten, bei denen einzelne Dimensionen eine offensichtliche Bedeutung haben (im Gegensatz zu einzelnen Neuronen oben). ZB ein Datensatz verschiedener Autos, bei denen die Abmessungen von Gewicht bis Preis reichen. In diesem Fall könnte man sich tatsächlich für die Hauptachsen selbst interessieren, weil man vielleicht etwas sagen möchte: Schauen Sie, die 1. Hauptachse entspricht der "Phantasie" des Autos (das mache ich jetzt total nach). Wenn die Projektion spärlich ist, wären solche Interpretationen im Allgemeinen einfacher zu geben, da viele Variablen haben werden0
Weitere Beispiele und eine Diskussion des letzteren Falles finden Sie in dem 2006 erschienenen Sparse PCA Paper von Zou et al. Der Unterschied zwischen dem ersteren und dem letzteren Fall wurde jedoch nirgends explizit diskutiert (obwohl es wahrscheinlich war).
quelle
quelle
Um die Vorteile von Sparsity in PCA zu verstehen, müssen Sie sicherstellen, dass Sie den Unterschied zwischen "loadings" und "variables" kennen (für mich sind diese Namen etwas willkürlich, aber das ist nicht wichtig).
Angenommen, Sie haben eine nxp- Datenmatrix X , wobei n die Anzahl der Abtastwerte ist. Die SVD von X = USV ' gibt Ihnen drei Matrizen. Wenn Sie die ersten beiden Z = US kombinieren, erhalten Sie die Matrix der Hauptkomponenten. Lassen Sie uns sagen , dass Ihre reduzierten Rang k , dann Z ist nxk . Z ist im Wesentlichen Ihre Datenmatrix nach der Dimensionsreduktion. Historisch,
Andererseits enthält V (das ist pxk ) die Hauptladevektoren und seine Einträge werden als Hauptladungen bezeichnet. In Anbetracht der Eigenschaften von PCA ist leicht zu zeigen, dass Z = XV . Das bedeutet, dass:
Nachdem diese Definitionen nicht mehr möglich sind, werden wir uns mit der Sparsamkeit befassen. Die meisten Papiere (oder zumindest die meisten, auf die ich gestoßen bin) erzwingen Sparsamkeit bei den Hauptladungen (auch bekannt als V ). Der Vorteil der Sparsamkeit ist der
Es gibt auch Interpretationen für die Erzwingung von Sparsamkeit bei den Einträgen von Z , die ich als "sparse variable PCA" bezeichnet habe, aber das ist weitaus weniger beliebt, und um ehrlich zu sein, habe ich nicht so viel darüber nachgedacht.
quelle