In der Regel verwenden wir PCA als Methode zur Dimensionsreduktion für Daten, bei denen angenommen wird, dass es sich um iid-Fälle handelt
Frage: Was sind die typischen Nuancen bei der Anwendung von PCA für abhängige, nicht-iid-bezogene Daten? Welche netten / nützlichen Eigenschaften von PCA, die für iid-Daten gelten, sind gefährdet (oder gehen vollständig verloren)?
Beispielsweise könnten die Daten eine multivariate Zeitreihe sein, in welchem Fall eine Autokorrelation oder eine autoregressive bedingte Heteroskedastizität (ARCH) erwartet werden könnte.
Einige verwandte Fragen zur Anwendung von PCA auf Zeitreihendaten wurden bereits gestellt, z. B. 1 , 2 , 3 , 4 , aber ich suche nach einer allgemeineren und umfassenderen Antwort (ohne auf jeden einzelnen Punkt näher eingehen zu müssen).
Bearbeiten: Wie von @ttnphns festgestellt, ist PCA selbst keine Inferenzanalyse. Man könnte jedoch an der Verallgemeinerungsleistung von PCA interessiert sein, dh an dem Bevölkerungsgegenstück der PCA-Stichprobe. ZB wie in Nadler (2008) geschrieben :
Unter der Annahme, dass die angegebenen Daten eine endliche und zufällige Stichprobe aus einer (im Allgemeinen unbekannten) Verteilung sind, ist die Beziehung zwischen den aus endlichen Daten berechneten PCA-Stichprobenergebnissen und denen des zugrunde liegenden Populationsmodells eine interessante theoretische und praktische Frage.
Verweise:
- Nadler, Boaz. "Endliche Näherungsergebnisse für die Hauptkomponentenanalyse: Ein Ansatz für Matrixstörungen." Die Annalen der Statistik (2008): 2791-2817.
quelle
Antworten:
Vermutlich könnten Sie die Zeitkomponente als zusätzliches Feature zu Ihren abgetasteten Punkten hinzufügen, und jetzt sind sie iid? Grundsätzlich sind die ursprünglichen Datenpunkte zeitabhängig:
Aber wenn wir , dann haben wir:x′ich= { xich, tich}
... und die Datenmuster sind nun voneinander unabhängig.
In der Praxis könnte PCA durch Einbeziehen der Zeit als Merkmal in jeden Datenpunkt dazu führen, dass eine Komponente einfach entlang der Zeitmerkmalachse zeigt. Wenn jedoch Features mit dem Zeit-Feature korreliert sind, besteht eine Komponente möglicherweise aus einem oder mehreren dieser Features sowie dem Zeit-Feature.
quelle