Es gibt viele Beiträge zu dieser SE, in denen robuste Ansätze für die Hauptkomponentenanalyse (PCA) erörtert werden, aber ich kann keine gute Erklärung dafür finden, warum PCA überhaupt empfindlich gegenüber Ausreißern ist.
26
Es gibt viele Beiträge zu dieser SE, in denen robuste Ansätze für die Hauptkomponentenanalyse (PCA) erörtert werden, aber ich kann keine gute Erklärung dafür finden, warum PCA überhaupt empfindlich gegenüber Ausreißern ist.
Antworten:
Einer der Gründe ist, dass PCA als eine niedrigrangige Zerlegung der Daten angesehen werden kann, die die Summe derL2 -Normen der Reste der Zerlegung minimiert . Das heißt , wenn Y. ist , die Daten ( m Vektoren von n Dimensionen), und X ist die PCA - Basis ( k Vektoren von n Dimensionen), dann wird die Zersetzung streng minimiert
∥ Y- XA ∥2F= ∑j = 1m∥ Yj- XEINj .∥2
Hier EIN die Matrix der Koeffizienten der PCA - Zerlegung und & Par; ⋅ & par;F ist eine Frobenius - Norm der Matrix
Da die PCA dieL2 -Normen (dh quadratische Normen) minimiert, gibt es die gleichen Probleme wie bei den kleinsten Quadraten oder bei der Anpassung eines Gaußschen durch Empfindlichkeit gegenüber Ausreißern. Aufgrund der Quadratur der Abweichungen von den Ausreißern dominieren sie die Gesamtnorm und steuern daher die PCA-Komponenten.
quelle