Robustes PCA (wie von Candes et al. 2009 oder besser Netrepalli et al. 2014 entwickelt ) ist eine beliebte Methode für die multivariate Ausreißererkennung. Aufgrund einer robusten, regulierten Schätzung der Kovarianzmatrix kann der Mahalanobis-Abstand jedoch auch für die Ausreißererkennung verwendet werden . Ich bin neugierig auf die (negativen) Vorteile einer Methode gegenüber der anderen.
Meine Intuition sagt mir, dass der größte Unterschied zwischen den beiden folgenden ist: Wenn der Datensatz "klein" (im statistischen Sinne) ist, ergibt eine robuste PCA eine niedrigere Kovarianz, während eine robuste Kovarianzmatrixschätzung stattdessen eine vollständige Kovarianzmatrixschätzung ergibt. Rang Kovarianz aufgrund der Ledoit-Wolf Regularisierung. Wie wirkt sich dies wiederum auf die Erkennung von Ausreißern aus?
quelle
Antworten:
In diesem Artikel werden einige Methoden in diesem Bereich verglichen. Sie beziehen sich auf den Robust PCA-Ansatz, mit dem Sie als "PCP" (Principal Components Pursuit) verknüpft sind, und auf die Methodenfamilie, mit der Sie als M-Schätzer für eine robuste Kovarianzschätzung verknüpft sind.
Sie argumentieren das
und zeigen, dass PCP (auch bekannt als robustes PCA) in einigen Fällen bei der Erkennung von Ausreißern fehlschlagen kann.
Sie sprechen auch über drei Arten von "Feinden der Wiederherstellung des Subraums", dh verschiedene Arten von Ausreißern, und welche Arten von Methoden für den Umgang mit jedem einzelnen geeignet sein könnten. Wenn Sie Ihre eigenen Ausreißer mit den drei hier beschriebenen Arten von "Feinden" vergleichen, können Sie möglicherweise einen Ansatz wählen.
quelle