Robuster PCA vs. robuster Mahalanobis-Abstand zur Erkennung von Ausreißern

17

Robustes PCA (wie von Candes et al. 2009 oder besser Netrepalli et al. 2014 entwickelt ) ist eine beliebte Methode für die multivariate Ausreißererkennung. Aufgrund einer robusten, regulierten Schätzung der Kovarianzmatrix kann der Mahalanobis-Abstand jedoch auch für die Ausreißererkennung verwendet werden . Ich bin neugierig auf die (negativen) Vorteile einer Methode gegenüber der anderen.

Meine Intuition sagt mir, dass der größte Unterschied zwischen den beiden folgenden ist: Wenn der Datensatz "klein" (im statistischen Sinne) ist, ergibt eine robuste PCA eine niedrigere Kovarianz, während eine robuste Kovarianzmatrixschätzung stattdessen eine vollständige Kovarianzmatrixschätzung ergibt. Rang Kovarianz aufgrund der Ledoit-Wolf Regularisierung. Wie wirkt sich dies wiederum auf die Erkennung von Ausreißern aus?

Mustafa S Eisa
quelle
Interessante Frage, aber ich kann nicht sehen, wie eine Antwort ohne einen bestimmten Anwendungsfall motiviert werden kann. Haben Sie "grob verfälschte Beobachtungen" ? Haben Sie allgemein verrauschte Daten? Bei einer Reihe von RPCA-Implementierungen handelt es sich im Wesentlichen um robuste Kovarianzschätzungstechniken (siehe Jolliffes Princ. Component Analysis, Ed. 2nd Ch. 10), bei denen die PCs aus der regulierten Schätzung der Kovarianz geschätzt werden. Die Unterscheidung von den beiden genannten Ansätzen ist daher alles andere als eindeutig. Im Allgemeinen ist die automatische Ausreißererkennung im Kontext einer bestimmten Anwendung erfolgreich.
usεr11852 sagt Reinstate Monic
1
Das Problem mit verrauschten Daten ist nicht die Erkennung von Ausreißern. Ich denke, das Problem der Erkennung von Ausreißern ist für sich genommen einschränkend genug, um einen allgemeinen Vergleich zwischen diesen beiden Methoden ohne Anwendungsfall zu ermöglichen. Dies ist eine Frage zur Methodik.
Mustafa S. Eisa
Vielleicht habe ich versucht, auf zu engstem Raum zu viel zu sagen, tut mir leid. Worauf ich aufmerksam machen möchte, ist, dass die beiden von Ihnen genannten Ansätze nicht verschieden sind. Sie sollten sich mehr auf den Vergleich zwischen einem Projektions-Verfolgungsansatz (was Sie RPCA nennen) und einem robusten Kovarianz-Schätzansatz (was Sie Mahalanobis-Entfernungen nennen) konzentrieren. Die robuste Kovarianzschätzung an sich ist eine perfekt gültige Methode für RPCA-Implementierungen (z. B. Google "PCA M-Estimation"). Erwähnen Sie auch nicht das Vorhandensein von gewichteten PCA-Ansätzen, die Sie im Zusammenhang mit RPCA nicht erwähnen.
usεr11852 sagt Reinstate Monic
Keine Notwendigkeit für eine Entschuldigung :) Die beiden Methoden unterscheiden sich sehr stark, insbesondere bei kleinen Datenmengen. Eine der Arten, wie sie sich unterscheiden, wird am Ende meiner Frage erwähnt. Während (robuste) PCA als Projektionsproblem angesehen werden kann, kann sie auch als Kovarianzschätzungsproblem interpretiert werden, sodass bei der Parameterschätzungsmethode möglicherweise weniger Unterschiede bestehen als bei der Anwendung und Leistung.
Mustafa S. Eisa
@ MustafaSEisa / Schöne Frage! Ich denke, es kann aus methodischen Gründen beantwortet werden: In der Tat ist es einer meiner pete peeves. Ich werde so schnell wie möglich eine vorläufige Antwort versuchen. Inzwischen; Ich denke, ein sinnvoller Weg, dies allgemeiner zu formulieren, besteht darin, die Konsequenzen der Verwendung von Modellen mit verschachtelten, aber ungleichen Invarianzgruppen zu untersuchen. Da versuche ich es hier in einem etwas anderen Zusammenhang.
User603

Antworten:

7

In diesem Artikel werden einige Methoden in diesem Bereich verglichen. Sie beziehen sich auf den Robust PCA-Ansatz, mit dem Sie als "PCP" (Principal Components Pursuit) verknüpft sind, und auf die Methodenfamilie, mit der Sie als M-Schätzer für eine robuste Kovarianzschätzung verknüpft sind.

Sie argumentieren das

PCP wurde für einheitlich verfälschte Datenkoordinaten anstelle von verfälschten Datenpunkten (dh Ausreißern) entwickelt. Daher ist der Vergleich mit PCP für diese Art von Daten etwas unfair

und zeigen, dass PCP (auch bekannt als robustes PCA) in einigen Fällen bei der Erkennung von Ausreißern fehlschlagen kann.

Sie sprechen auch über drei Arten von "Feinden der Wiederherstellung des Subraums", dh verschiedene Arten von Ausreißern, und welche Arten von Methoden für den Umgang mit jedem einzelnen geeignet sein könnten. Wenn Sie Ihre eigenen Ausreißer mit den drei hier beschriebenen Arten von "Feinden" vergleichen, können Sie möglicherweise einen Ansatz wählen.

David J. Harris
quelle
Vielen Dank für diesen David, ich werde einen Blick auf die Zeitung werfen. Es gibt jedoch eine Version von robustem PCA, die dem Datum (Zeilen der Datenmatrix) eine rotationsinvariante Strafe auferlegt, anstelle einer Strafe für Koordinaten (wie im Fall Candes). Gedanken?
Mustafa S Eisa
Ich bin nicht sicher, ob ich Ihre Frage verstehe. Bitten Sie mich, die beiden Ansätze, die Sie in Ihrer Frage erörtert haben, mit einem anderen robusten PCA-Ansatz zu vergleichen?
David J. Harris
11
Wenn Ihre Antwort "Nein" ist, ist das völlig in Ordnung, ich frage mich nur.
Mustafa S. Eisa
Oh, ich verstehe. Wäre das ein Sonderfall für Mahalanobis Entfernung?
David J. Harris