Wie genau ist spärliches PCA besser als PCA?

24

Ich habe vor einigen Vorlesungen im Unterricht etwas über PCA gelernt, und als ich mehr über dieses faszinierende Konzept erfuhr, lernte ich etwas über spärliche PCA.

Ich wollte fragen, ob ich mich nicht irre: Wenn Sie in PCA Datenpunkte mit p Variablen haben, können Sie jeden Datenpunkt im p- dimensionalen Raum darstellen, bevor Sie PCA anwenden. Nach dem Anwenden von PCA können Sie es wieder im selben dimensionalen Raum darstellen, aber dieses Mal enthält die erste Hauptkomponente die größte Varianz, die zweite die zweitgrößte Varianzrichtung und so weiter. So können Sie die letzten Hauptkomponenten eliminieren, da sie keinen großen Datenverlust verursachen, und Sie können die Daten komprimieren. Recht?npp

Sparse PCA wählt Hauptkomponenten so aus, dass diese Komponenten in ihren Vektorkoeffizienten weniger Nicht-Null-Werte enthalten.

Wie soll Ihnen das helfen, Daten besser zu interpretieren? Kann jemand ein Beispiel geben?

GrowinMan
quelle
Hallo @GrowinMan! Hast du meine Antwort auf diese Frage gesehen? Glaubst du, es beantwortet es? Wenn nicht, können Sie uns um weitere Erläuterungen bitten oder Ihre Frage bearbeiten, um sie präziser zu gestalten. Wenn ja, können Sie es durch Klicken auf ein grünes Häkchen in der Nähe bestätigen und akzeptieren. Mir ist aufgefallen, dass Sie bei CrossValidated keine Stimmen und keine akzeptierten Threads haben.
Amöbe sagt Reinstate Monica
@amoeba Danke für den Hinweis. Ich habe mich eine Weile nicht eingeloggt und bin auch ein wenig nicht mit maschinellem Lernen vertraut. Ich werde Ihre Antwort
Fall noch
Kein Problem. Ich bin versehentlich auf diesen alten Faden gestoßen und habe darüber nachgedacht, Ihnen eine Zeile zu schreiben.
Amöbe sagt Reinstate Monica
Hallo @GrowinMan! :-) Kam wieder über diesen alten Thread. Wenn Sie immer noch der Meinung sind, dass diese Frage ungelöst ist, können Sie gerne weitere Fragen stellen. Andernfalls können Sie eine der Antworten bestätigen und akzeptieren, indem Sie in der Nähe auf ein grünes Häkchen klicken. Mir ist aufgefallen, dass Sie hier bei CrossValidated keine Stimmen und keine akzeptierten Threads haben.
Amöbe sagt Reinstate Monica

Antworten:

29

Ob eine spärliche PCA leichter zu interpretieren ist als eine Standard-PCA oder nicht, hängt von dem zu untersuchenden Datensatz ab. So denke ich darüber: Manchmal interessiert man sich mehr für die PCA-Projektionen (niedrig dimensionale Darstellung der Daten) und manchmal - für die Hauptachsen; Nur im letzteren Fall kann eine spärliche PCA einen Nutzen für die Interpretation haben. Lassen Sie mich einige Beispiele nennen.

Ich arbeite z. B. mit neuronalen Daten (gleichzeitige Aufzeichnung vieler Neuronen) und wende PCA- und / oder verwandte Dimensionalitätsreduktionstechniken an, um eine niedrigdimensionale Darstellung der neuronalen Populationsaktivität zu erhalten. Ich habe vielleicht 1000 Neuronen (dh meine Daten leben im 1000-dimensionalen Raum) und möchte sie auf die drei Hauptachsen projizieren. Was diese Achsen sind, ist für mich völlig irrelevant, und ich habe nicht die Absicht, diese Achsen in irgendeiner Weise zu "interpretieren". Was mich interessiert, ist die 3D-Projektion (da die Aktivität von der Zeit abhängt, erhalte ich eine Flugbahn in diesem 3D-Raum). Mir geht es also gut, wenn jede Achse alle 1000 Koeffizienten ungleich Null hat.

Andererseits könnte jemand mit "greifbareren" Daten arbeiten, bei denen einzelne Dimensionen eine offensichtliche Bedeutung haben (im Gegensatz zu einzelnen Neuronen oben). ZB ein Datensatz verschiedener Autos, bei denen die Abmessungen von Gewicht bis Preis reichen. In diesem Fall könnte man sich tatsächlich für die Hauptachsen selbst interessieren, weil man vielleicht etwas sagen möchte: Schauen Sie, die 1. Hauptachse entspricht der "Phantasie" des Autos (das mache ich jetzt total nach). Wenn die Projektion spärlich ist, wären solche Interpretationen im Allgemeinen einfacher zu geben, da viele Variablen haben werden0

Weitere Beispiele und eine Diskussion des letzteren Falles finden Sie in dem 2006 erschienenen Sparse PCA Paper von Zou et al. Der Unterschied zwischen dem ersteren und dem letzteren Fall wurde jedoch nirgends explizit diskutiert (obwohl es wahrscheinlich war).

Amöbe sagt Reinstate Monica
quelle
3
Dies war eine großartige Erklärung. Ein weiteres Beispiel für Ihre "greifbaren" Daten wäre eine Umfrage mit vielen Fragen, und Sie möchten wissen, welche Fragen in der Umfrage am wichtigsten sind, und vielleicht stellt eine Kombination dieser Fragen tatsächlich eine Frage zu einem Thema.
Bdeonovic
1

So können Sie die letzten Hauptkomponenten eliminieren, da sie keinen großen Datenverlust verursachen, und Sie können die Daten komprimieren. Recht?

NV1,V2,,VNNPC1,PC2,,PCNVichPCich

PCichVj,Vl, , die Variablen mit dem Koeffizienten Null.

(PCich,PCj)N

Leon-Alph
quelle
Wie!? Ich verstehe nicht, wie es in diesem Fall einfach zu interpretieren wäre, wenn die Hauptkomponenten nicht spärlich sind.
GrowinMan
2
Die Art und Weise, wie ich das sehe, ist, dass wir häufig Variablen-Clustering vor dem PC durchführen, um die Ergebnisse deutlicher zu machen. Sparse PC kombiniert Variablenclustering und PC in einem Schritt, sodass der Analyst weniger Entscheidungen treffen muss.
Frank Harrell
1

Um die Vorteile von Sparsity in PCA zu verstehen, müssen Sie sicherstellen, dass Sie den Unterschied zwischen "loadings" und "variables" kennen (für mich sind diese Namen etwas willkürlich, aber das ist nicht wichtig).

Angenommen, Sie haben eine nxp- Datenmatrix X , wobei n die Anzahl der Abtastwerte ist. Die SVD von X = USV ' gibt Ihnen drei Matrizen. Wenn Sie die ersten beiden Z = US kombinieren, erhalten Sie die Matrix der Hauptkomponenten. Lassen Sie uns sagen , dass Ihre reduzierten Rang k , dann Z ist nxk . Z ist im Wesentlichen Ihre Datenmatrix nach der Dimensionsreduktion. Historisch,

Die Einträge Ihrer Hauptkomponenten (auch bekannt als Z = US ) werden als Variablen bezeichnet.

Andererseits enthält V (das ist pxk ) die Hauptladevektoren und seine Einträge werden als Hauptladungen bezeichnet. In Anbetracht der Eigenschaften von PCA ist leicht zu zeigen, dass Z = XV . Das bedeutet, dass:

Die Hauptkomponenten werden abgeleitet, indem die Hauptladungen als Koeffizienten in einer linearen Kombination Ihrer Datenmatrix X verwendet werden .

Nachdem diese Definitionen nicht mehr möglich sind, werden wir uns mit der Sparsamkeit befassen. Die meisten Papiere (oder zumindest die meisten, auf die ich gestoßen bin) erzwingen Sparsamkeit bei den Hauptladungen (auch bekannt als V ). Der Vorteil der Sparsamkeit ist der

Ein spärliches V sagt uns, welche Variablen (aus dem ursprünglichen p- dimensionalen Merkmalsraum) es wert sind, behalten zu werden. Dies nennt man Interpretierbarkeit.

Es gibt auch Interpretationen für die Erzwingung von Sparsamkeit bei den Einträgen von Z , die ich als "sparse variable PCA" bezeichnet habe, aber das ist weitaus weniger beliebt, und um ehrlich zu sein, habe ich nicht so viel darüber nachgedacht.

idnavid
quelle