Bei einer PCA (oder SVD) Angleichung der Matrix mit einer Matrix X , wir wissen , dass X die beste Low-Rang Approximation ist X .
Ist dies nach der induzierten Norm (dh der größten Eigenwertnorm) oder nach der Frobenius Norm?
quelle
Bei einer PCA (oder SVD) Angleichung der Matrix mit einer Matrix X , wir wissen , dass X die beste Low-Rang Approximation ist X .
Ist dies nach der induzierten Norm (dh der größten Eigenwertnorm) oder nach der Frobenius Norm?
PCA wird durch dieselbe Singularwertzerlegung gegeben, wenn die Daten zentriert sind. sind Hauptkomponenten, sind Hauptachsen, dh Eigenvektoren der Kovarianzmatrix, und die Rekonstruktion von mit nur den Hauptkomponenten, die den größten Singularwerten entsprechen, ist gegeben durch .V X k k X k = U k S k V ⊤ k
Das Eckart-Young-Theorem besagt, dass die Matrix ist, die die Norm des Rekonstruktionsfehlers minimiert unter allen Matrizen vom Rang . Dies gilt sowohl für die Frobenius-Norm als auch für den Operator -norm. Wie @cardinal in den Kommentaren ausführte, wurde es erstmals 1907 von Schmidt (von Gram-Schmidt berühmt) für den Fall Frobenius bewiesen. Es wurde später von Eckart und Young im Jahr 1936 wiederentdeckt und ist heute meist mit ihren Namen verbunden. Mirsky verallgemeinerte den Satz 1958 auf alle Normen, die bei einheitlichen Transformationen unveränderlich sind, und dies schließt die Operator-2-Norm ein. ≤ X - A ≤ A k 2
Dieser Satz wird manchmal Eckart-Young-Mirsky-Satz genannt. Stewart (1993) nennt es Schmidt-Näherungssatz. Ich habe sogar das Schmidt-Eckart-Young-Mirsky-Theorem gesehen.
Sei von vollem Rang . Da Rang , hat sein Nullraum Dimensionen. Der Raum, der von den rechten Singularvektoren von entsprechend den größten Singularwerten überspannt wird , hat Dimensionen. Diese beiden Räume müssen sich also kreuzen. Sei ein Einheitsvektor von der Schnittmenge. Dann erhalten wir: QED.n A k n - k k + 1 x k + 1≤ X - A ≤ 2 2 ≥ ≤ ( X - A ) w ≤ 2 2 = ≤ X w ≤ 2
Wir wollen die Matrix vom Rang , die . Wir können Faktorisierung , wo hat orthonormal Spalten. Das Minimieren von für festes ist ein Regressionsproblem mit Lösung . Wenn wir es , sehen wir, dass wir jetzt minimieren müssen. wobei die Kovarianzmatrix von , dhk ‖ X - A ‖ 2 F A = B W ⊤ W k ‖ X - B W ⊤ ‖ 2 W‖ X - X W W ⊤ ‖ 2 = ‖ X ‖ 2 - ‖ X W W ⊤ ‖ 2 = c o n s t - t r (Σ X Σ = X ⊤ X / ( n - 1 ) W k
Es ist bekannt, dass dies die ersten Eigenvektoren der Kovarianzmatrix sind. In der Tat, wenn , dann ist . Wenn wir schreiben, das auch orthonormale Spalten hat, erhalten wir wobei das Maximum erreicht wird, wenn . Der Satz folgt dann sofort.X = U S V ⊤ & Sigma; = V S 2 V ⊤ / ( n - 1 ) = V Λ V ⊤ R = V ⊤ W t r ( W ⊤
Siehe die folgenden drei verwandten Themen:
Diesen Beweis habe ich irgendwo online gefunden, aber er ist falsch (enthält eine Lücke), wie von @cardinal in den Kommentaren erklärt.
Die Frobenius-Norm ist bei einheitlichen Transformationen unveränderlich, da sie die singulären Werte nicht verändern. Wir erhalten also: wobei . Fortsetzung:Dies wird minimiert, wenn alle nicht diagonalen Elemente von Null sind und alle diagonalen Terme die größten Singularwerte [Lücke hier: dies ist nicht offensichtlich] auslöschen , dh und damit .