SVD einer Datenmatrix (PCA) nach dem Glätten

8

Angenommen, ich habe eine zentrierte Datenmatrix mit SVD .n×mAA=UΣVT

Zum Beispiel Spalten (Messungen), die Spektren mit verschiedenen Frequenzen sind. Die Matrix ist zentriert, sodass der Mittelwert der Zeilen der Matrix abgezogen wird. Dies dient zur Interpretation der linken Singularvektoren als Hauptkomponenten.m=50n=100

Ich bin daran interessiert zu verstehen, wie sich die SVD ändert, wenn ich jeden Spaltenvektor glatte. Beispiel: Lassen Sie uns jede 100x1-Spalte mit einem einfachen Kernel wie [1/3, 2/3, 1/3] glätten.

S=[23131323131323131323131323131323]

Die neue Datenmatrix ist also und hat eine SVD .A=SAA=UΣVT

Mein erster Gedanke war, dass ich seit erwarten sollte, dass die Vektoren genau wie die Vektoren geglättet werden.U ' i A iSA=SUΣVTUiAi

Diese erste Gleichung sieht so aus, als ob Eigenvektoren von :A ' A ' T.(SU)iAAT

SA(SA)T=SUΣΣTUTST

Aber ich bin mir bei diesem nächsten nicht sicher, ob es gültig ist zu sagen, dass die Eigenvektoren von :A ' T A 'ViATA

(SA)TSA=VΣTUTSTSUΣVT

Wenn ich SVDs von und numerisch vergleiche, sind die linken Singularvektoren nicht das, was ich erwarte, , aber sie haben ein geglättetes Erscheinungsbild.A ' U 'S U.AAUSU

Kann mir jemand helfen, und die SVD nach dieser einfachen Transformation in Beziehung zu setzen ? U ' Σ ' V ' T.UΣVTUΣVT

Andy
quelle

Antworten:

8

Warum deine ersten Gedanken dich in die Irre geführt haben:

Wenn Sie die SVD einer Matrix nehmen, und sind unitäre (orthogonal). Während es wahr ist, dass ist, ist dies (im Allgemeinen) nicht die SVD von . Nur wenn einheitlich ist (was im Fall einer Glättungsmatrix nicht der Fall ist), wäre .V S A = S U Σ V T S A S U ' = S U.UVSA=SUΣVTSASU=SU

Gibt es eine elegante, symbolische Art, die beiden SVDs in Beziehung zu setzen? Ich kann keinen finden. Ihre Glättungsmatrix ist jedoch eine Toeplitz-Matrix. Es ist möglich, dass solche Matrizen einige spezielle Eigenschaften haben, die für eine fruchtbarere Analyse sorgen könnten. Wenn Sie etwas herausfinden, teilen Sie es bitte mit dem Rest von uns.

Der Fall der extremen Glättung:

Eine Möglichkeit, über das Glätten nachzudenken, ist ein Kontinuum von keiner Glättung bis zum Äußersten, bei dem jede Spalte auf ihren Mittelwert geglättet wird. In diesem Extremfall hätte die Matrix einen Rang von 1 und es gäbe nur einen Singularwert ungleich Null. Schauen wir uns die SVD an:

[μ1μ2...μm]=[μμ...]=1μT=1n[μn]μTμ

Die letzte Gleichung repräsentiert die abgeschnittene SVD. Beachten Sie, dass der linke und der rechte Vektor die Länge 1 haben. Sie können zu einer orthogonalen Matrix erweitern. Ähnliches gilt für . Dann füllen Sie einfach die mittlere Matrix auf Null und Sie haben die volle SVD. μ1nμμ

Zwischenglättung

Vermutlich werden Sie keine so extreme Glättung durchführen. Was bedeutet das für Sie? Wenn wir die Glättung erweitern, wird das Spektrum allmählich auf einen einzigen Wert reduziert. Zum Beispiel in meinen Simulationen *:

Spektrum normal Spektrum Ortho

Wie durch die obige Ableitung vorgeschlagen, sich dem normierten 1-Vektor und dem normierten Mittelwertvektor. Aber was ist mit den anderen Vektoren? V ' 1U1V1

Wenn ihre entsprechenden Singularwerte schrumpfen, variieren die anderen und immer stärker, bis sie nur noch willkürliche Entscheidungen für Basen der zu und orthogonalen . Das heißt, das wird nur Lärm. V ' i U ' 1 V ' 1UiViU1V1

Wenn Sie eine brauchen, warum sie "nur Rauschen" sind, , dass eine gewichtete Summe von Dyaden ist: . Wir könnten die Richtungen von und vollständig ändern , und es wird nur die Einträge von um weniger als .σ i U ' i V ' T i U ' i V ' i S A σ iSAσiUiViTUiViSAσi

Eine weitere Visualisierung

Hier ist eine andere Möglichkeit, die Spaltenglättung zu betrachten. Stellen Sie sich jede Zeile in der Matrix als Punkt im Raum vor. Wenn wir die Spalten glätten, kommt jeder Punkt dem vorherigen und dem nächsten Punkt näher. Insgesamt schrumpft die Punktwolke †:m

Zeilenpunktwolke

Hoffe das hilft!

[*]: Ich habe eine Familie von immer breiteren Glättern definiert. Grob gesagt nahm ich den Kernel [1/4, 1/2, 1/4], faltete ihn fach, schnitt ihn auf Dimensionen ab und normalisierte ihn so, dass er sich zu 1 summierte. Dann zeichnete ich die fortschreitende Glättung eines zufälligen Orthogonals und eine zufällige normale Matrix.dzd

[†]: Auf die gleiche Weise erzeugte Glätter. besteht aus einer Reihe von Punkten im Raum, die interessant aussehen.2A2

Stumpy Joe Pete
quelle