Ich verwende PCA, um mehrere räumlich verwandte Zeitreihen zu analysieren, und es scheint, dass der erste Eigenvektor der Ableitung des mittleren Trends der Reihe entspricht (Beispiel unten dargestellt). Ich bin gespannt, warum sich der erste Eigenvektor auf die Ableitung des Trends im Gegensatz zum Trend selbst bezieht.
Die Daten sind in einer Matrix angeordnet, in der die Zeilen die Zeitreihen für jede räumliche Einheit und die Spalten (und wiederum die Dimensionen in der PCA) die Jahre sind (dh im folgenden Beispiel 10 Zeitreihen mit jeweils 7 Jahren). Die Daten sind auch vor der PCA im Mittel zentriert.
Stanimirovic et al., 2007, kommen zu dem gleichen Schluss, aber ihre Erklärung liegt etwas außerhalb meines Verständnisses der linearen Algebra.
[Update] - Hinzufügen von Daten wie vorgeschlagen.
[Update2] - BEANTWORTET. Ich habe festgestellt, dass mein Code beim Plotten der Ergebnisse ( excel_walkthrough ) die Transponierung der Eigenvektormatrix falsch verwendet hat ( excel_walkthrough ) (danke @amoeba). Es sieht so aus, als ob es nur ein Zufall ist, dass die Transponierungs-Eigenvektor / Ableitungs-Beziehung für diesen speziellen Aufbau existiert. Wie in diesem Beitrag mathematisch und intuitiv beschrieben, bezieht sich der erste Eigenvektor tatsächlich auf den zugrunde liegenden Trend und nicht auf seine Ableitung .
quelle
Antworten:
Lassen Sie uns die Mittelwertzentrierung für einen Moment ignorieren. Eine Möglichkeit, die Daten zu verstehen, besteht darin, jede Zeitreihe als ungefähr ein festes Vielfaches eines gesamten "Trends" , der selbst eine Zeitreihe (mit die Anzahl der Zeiträume). Ich werde dies im Folgenden als "mit einem ähnlichen Trend" bezeichnen.x=(x1,x2,…,xp)′ p=7
Wenn Sie für diese Vielfachen schreiben (mit die Anzahl der Zeitreihen), ist die Datenmatrix ungefährϕ=(ϕ1,ϕ2,…,ϕn)′ n=10
Die PCA-Eigenwerte (ohne mittlere Zentrierung) sind die Eigenwerte von
weil nur eine Zahl ist. Per Definition gilt für jeden Eigenwert und jeden entsprechenden Eigenvektor ,ϕ′ϕ λ β
wobei wiederum die Zahl mit dem Vektor . Sei der größte Eigenwert, also (es sei denn, alle Zeitreihen sind zu allen Zeiten identisch Null) .x λ λ > 0x′β x λ λ>0
Da die rechte Seite von ein Vielfaches von und die linke Seite ein Vielfaches ungleich Null von , muss der Eigenvektor auch ein Vielfaches von sein.x β β x(1) x β β x
Mit anderen Worten, wenn eine Reihe von Zeitreihen diesem Ideal entspricht (dass alle Vielfache einer gemeinsamen Zeitreihe sind), dann
Es gibt einen eindeutigen positiven Eigenwert in der PCA.
Es gibt einen eindeutigen entsprechenden Eigenraum, der von der gemeinsamen Zeitreihe überspannt wird .x
Umgangssprachlich sagt (2) "der erste Eigenvektor ist proportional zum Trend."
"Mittlere Zentrierung" in PCA bedeutet, dass die Spalten zentriert sind. Da die Spalten den Beobachtungszeiten der Zeitreihen entsprechen, bedeutet dies, den durchschnittlichen Zeittrend zu entfernen, indem der Durchschnitt aller Zeitreihen zu jeder der Zeiten separat auf Null gesetzt wird . Somit wird jede Zeitreihe durch ein Residuum , wobei der Mittelwert des . Dies ist jedoch die gleiche Situation wie zuvor, indem einfach die durch ihre Abweichungen von ihrem Mittelwert ersetzt werden. p ϕ i x ( ϕ i - ˉ ϕ ) x ˉ ϕ ϕ i ϕn p ϕix (ϕi−ϕ¯)x ϕ¯ ϕi ϕ
Wenn umgekehrt in der PCA ein eindeutiger, sehr großer Eigenwert vorhanden ist, können wir eine einzelne Hauptkomponente beibehalten und die ursprüngliche Datenmatrix genau approximieren . Daher enthält diese Analyse einen Mechanismus zur Überprüfung ihrer Gültigkeit:X
Diese Schlussfolgerung gilt sowohl für PCA für die Rohdaten als auch für PCA für die (Spalten-) mittleren zentrierten Daten.
Gestatten Sie mir zu veranschaulichen. Am Ende dieses Beitrags befindet sichx ϕ
R
Code zum Generieren von Zufallsdaten gemäß dem hier verwendeten Modell und zum Analysieren des ersten PCs. Die Werte von und sind qualitativ wahrscheinlich die in der Frage gezeigten. Der Code generiert zwei Grafikzeilen: ein "Geröllplot" mit den sortierten Eigenwerten und ein Plot der verwendeten Daten. Hier ist eine Reihe von Ergebnissen.ϕDie Rohdaten werden oben rechts angezeigt. Das Geröllplot oben links bestätigt, dass der größte Eigenwert alle anderen dominiert. Über den Daten habe ich den ersten Eigenvektor (erste Hauptkomponente) als dicke schwarze Linie und den Gesamttrend (das Mittel nach Zeit) als gestrichelte rote Linie dargestellt. Sie sind praktisch zufällig.
Die zentrierten Daten werden unten rechts angezeigt. Sie jetzt ist der "Trend" in den Daten eher ein Trend in der Variabilität als in der Ebene. Obwohl die Geröllkurve alles andere als schön ist - der größte Eigenwert überwiegt nicht mehr -, kann der erste Eigenvektor diesen Trend gut nachvollziehen.
quelle
Die Ableitung der Daten (~ erste Differenz) beseitigt die punktweisen Abhängigkeiten in den Daten, die auf Nichtstationarität zurückzuführen sind (vgl. ARIMA). Was Sie dann wiederherstellen, ist ungefähr das stabile stationäre Signal, das die SVD wohl wiederherstellt.
quelle