Ich verstehe, dass die Hauptkomponentenanalyse (PCA) grundsätzlich für Querschnittsdaten angewendet werden kann. Kann PCA effektiv für Zeitreihendaten verwendet werden, indem Jahr als Zeitreihenvariable angegeben wird und PCA normal ausgeführt wird? Ich habe festgestellt, dass dynamisches PCA für Paneldaten funktioniert und die Codierung in Stata für Paneldaten und nicht für Zeitreihen ausgelegt ist. Gibt es einen bestimmten PCA-Typ, der mit Zeitreihendaten arbeitet?
Aktualisieren. Lassen Sie mich das näher erläutern.
Ich baue derzeit einen Index für die Infrastruktur in Indien mit Variablen wie Straßenlänge, Schienenlänge, Stromerzeugungskapazität, Anzahl der Telefonabonnenten usw. auf. Ich habe 12 Variablen über 22 Jahre für 1 Land. Obwohl ich Papiere durchgesehen habe, die PCA auf Zeitreihen und sogar auf Paneldaten anwenden, ist PCA für Querschnittsdaten ausgelegt, die diese Annahme voraussetzen. Panel- und Querschnittsdaten verstoßen dagegen und PCA berücksichtigt nicht die Zeitreihendimension darin. Ich habe gesehen, dass dynamisches PCA nur auf Paneldaten angewendet wird. Ich möchte wissen, ob es eine bestimmte PCA gibt, die auf Zeitreihen angewendet wird, oder ob die Ausführung einer statischen PCA mit einem als Zeitreihenvariable definierten Jahr die Aufgabe erfüllt.
quelle
Antworten:
Ein Ansatz könnte darin bestehen, die ersten Zeitunterschiede Ihrer 12 Variablen zu berücksichtigen, um die Stationarität sicherzustellen. Berechnen Sie dann die12×12 Kovarianzmatrix und führen Sie eine PCA durch. Dies ist eine Art durchschnittlicher PCA über die gesamte Zeitspanne und sagt nichts darüber aus, wie sich die verschiedenen Zeitverzögerungen gegenseitig beeinflussen. Aber es könnte ein guter Ausgangspunkt sein.
Wenn Sie daran interessiert sind, auch den Zeitbereich zu zerlegen, würde ich das überprüfen SSA wie in den Kommentaren vorgeschlagen ausprobieren.
Wenn Sie Reihen (angenommen) stationär sind, ist eine einzelne Kovarianzmatrix sinnvoll. Wenn Ihre Daten in einer Größenordnung von 1 oder höher integriert sind, wie ich vermute, liefert die Schätzung einer einzelnen Kovarianzmatrix keine konsistenten Ergebnisse. Ein zufälliger Gang ist beispielsweise in der Reihenfolge 1 integriert, und die geschätzte Kovarianz zweier zufälliger Gänge sagt hier nichts über ihre gemeinsame Bewegung aus ist eine Analyse der gemeinsamen Integration erforderlich.
Wie in den Kommentaren erwähnt, kümmert sich PCA an sich nicht um die Stationarität, so dass Sie PCA mit jeder positiven semidefiniten Matrix versorgen können und die PC-Zerlegung im PCA-Sinne in Ordnung ist.
Aber wenn Ihre geschätzte Kovarianzmatrix nichts Bedeutendes über die Daten aussagt, wird PCA dies natürlich auch nicht tun.
quelle
Ja, PCA-On-Time-Series werden ständig in den Bereichen Financial Engineering (Quantitative Finance) und Neurologie durchgeführt.
In der Neurologie wird PCA mit Zeitreihen für Aktionspotentiale in verschiedenen Wellenlängenbändern durchgeführt, die aus einem EEG erhalten wurden. Die Umwandlung der Aktionspotentiale in orthogonale (unkorrelierte) PC-Score-Vektoren und die Eingabe der PCs in andere Analysen ist das wichtigste Mittel, mit dem die statistische Aussagekraft bei der statistischen genetischen Modellierung komplexer Merkmale für die Verhaltensgenetik gesteigert wurde (da Phänotypen für z. Suchende, schizotypische, schozephrenie häufig überlappen). Die großen australischen Zwillingsgenetikstudien haben dazu beigetragen, diese überlappenden Merkmale in der Verhaltensgenetik zu analysieren, da bei Krankheitsdifferenzen zwischen identischen Zwillingen, die zusammen aufgezogen werden (im selben Haushalt aufwachsen), kausale Schlussfolgerungen auf eine Exposition in verschiedenen Umgebungen hindeuten können, wenn Sie waren älter als ihre identische Genetik.
quelle