Eigenschaften von PCA für abhängige Beobachtungen

23

In der Regel verwenden wir PCA als Methode zur Dimensionsreduktion für Daten, bei denen angenommen wird, dass es sich um iid-Fälle handelt

Frage: Was sind die typischen Nuancen bei der Anwendung von PCA für abhängige, nicht-iid-bezogene Daten? Welche netten / nützlichen Eigenschaften von PCA, die für iid-Daten gelten, sind gefährdet (oder gehen vollständig verloren)?

Beispielsweise könnten die Daten eine multivariate Zeitreihe sein, in welchem ​​Fall eine Autokorrelation oder eine autoregressive bedingte Heteroskedastizität (ARCH) erwartet werden könnte.

Einige verwandte Fragen zur Anwendung von PCA auf Zeitreihendaten wurden bereits gestellt, z. B. 1 , 2 , 3 , 4 , aber ich suche nach einer allgemeineren und umfassenderen Antwort (ohne auf jeden einzelnen Punkt näher eingehen zu müssen).

Bearbeiten: Wie von @ttnphns festgestellt, ist PCA selbst keine Inferenzanalyse. Man könnte jedoch an der Verallgemeinerungsleistung von PCA interessiert sein, dh an dem Bevölkerungsgegenstück der PCA-Stichprobe. ZB wie in Nadler (2008) geschrieben :

Unter der Annahme, dass die angegebenen Daten eine endliche und zufällige Stichprobe aus einer (im Allgemeinen unbekannten) Verteilung sind, ist die Beziehung zwischen den aus endlichen Daten berechneten PCA-Stichprobenergebnissen und denen des zugrunde liegenden Populationsmodells eine interessante theoretische und praktische Frage.

Verweise:

Richard Hardy
quelle
14
Nur zur Kenntnisnahme. PCA selbst ist keine Inferenzanalyse. Es ist eine Transformation eines multivariaten Datensatzes von Zahlen; der kern ist nur svd oder eigendecomposition. Daher wird die Unabhängigkeit der Beobachtung nicht vorausgesetzt. Annahmen ergeben sich, wenn wir PCA als statistisches Instrument zur Analyse von Proben aus Populationen verwenden. Dies sind jedoch nicht die Annahmen von PCA. Zum Beispiel erfordert das Testen der Sphärizität, um zu entscheiden, ob PCA zur Reduzierung der Daten gerechtfertigt ist, die Unabhängigkeit, und der Test kann so aussehen, als wäre er ein "innerhalb der PCA" liegender Annahmetest, aber tatsächlich ist er ein "außerhalb" liegender Test.
TTNPHNS
@ttnphns, sehr gute Punkte, danke. Wenn Sie eine gute Möglichkeit finden, meinen Beitrag zu bearbeiten, wenden Sie sich bitte an. Ich werde es mir auch überlegen.
Richard Hardy
1
Richard, deine Frage ist in Ordnung und wichtig (+1). Vielleicht würde ich es lieber ein wenig umformulieren wie "Normalerweise verwenden wir PCA als Dimensionsreduktion für Daten, bei denen Fälle angenommen werden ... Was sind typische Nuancen bei der Anwendung von PCA für Zeitreihendaten, bei denen Fälle (Zeit) Punkte) sind verzögerungsabhängig ...? "
TTNPHNS
1
@amoeba, richtig. Wir hören aber kaum auf, nur die Ladevorgänge der PCs zu ermitteln. Was sollten wir in den Schritten, die üblicherweise auf PCA folgen, unter Non-iid'ness beachten? Ich hoffe, eine Antwort könnte besser sein als die Frage (in der aktuellen Formulierung). Wenn Sie es locker / kreativ betrachten, könnten Sie sich vielleicht ein paar gute Punkte einfallen lassen.
Richard Hardy
2
Normaler PCA berücksichtigt nur "horizontale" Assoziationen (dh zwischen Spalten) und ignoriert "vertikale" (zwischen Fällen): Die Kovarianzmatrix von Spalten ist dieselbe, wenn Sie die Reihenfolge der Fälle mischen. Ob dies als "keine Annahmen für Fallreihenbeziehungen" oder "Annahmen für unabhängige Fälle" bezeichnet werden kann, ist Geschmackssache. Die iid Annahme ist der Standard in der Datenanalyse, und so Methoden , die einfach nicht nicht besondere Aufmerksamkeit zu Fall zahlen , wie PCA, könnte die „stille Unterstützung“ für die iid Annahme zur Last gelegt werden.
TTNPHNS

Antworten:

1

Vermutlich könnten Sie die Zeitkomponente als zusätzliches Feature zu Ihren abgetasteten Punkten hinzufügen, und jetzt sind sie iid? Grundsätzlich sind die ursprünglichen Datenpunkte zeitabhängig:

p(xichtich)p(xich)

Aber wenn wir , dann haben wir:xich={xich,tich}

p(xichtich)=p(xich)

... und die Datenmuster sind nun voneinander unabhängig.

In der Praxis könnte PCA durch Einbeziehen der Zeit als Merkmal in jeden Datenpunkt dazu führen, dass eine Komponente einfach entlang der Zeitmerkmalachse zeigt. Wenn jedoch Features mit dem Zeit-Feature korreliert sind, besteht eine Komponente möglicherweise aus einem oder mehreren dieser Features sowie dem Zeit-Feature.

Hugh Perkins
quelle
1
Danke für die Antwort. Das wäre ein ganz besonderer Fall, in dem die Zeit linear eintritt. Ein weiter verbreitetes Phänomen ist beispielsweise die Autokorrelation, bei der die Zeit selbst keine Rolle als Merkmal spielt.
Richard Hardy
xtθxt-1xtxt-1θxt-1
xt-1