Angenommen, ich habe einen großen Satz multivariater Daten mit mindestens drei Variablen. Wie finde ich die Ausreißer? Paarweise Streudiagramme funktionieren nicht, da es möglich ist, dass ein Ausreißer in drei Dimensionen existiert, der in keinem der zweidimensionalen Teilräume ein Ausreißer ist.
Ich denke nicht an ein Regressionsproblem, sondern an echte multivariate Daten. Antworten, die eine robuste Regression oder Rechenleistung beinhalten, sind daher nicht hilfreich.
Eine Möglichkeit wäre, die Hauptkomponentenwerte zu berechnen und im bivariaten Streudiagramm der ersten beiden Werte nach einem Ausreißer zu suchen. Würde das garantiert funktionieren? Gibt es bessere Ansätze?
multivariate-analysis
outliers
Rob Hyndman
quelle
quelle
Antworten:
Schauen Sie sich das mvoutlier- Paket an, das auf bestellten robusten Mahalanobis-Entfernungen basiert, wie von @drknexus vorgeschlagen.
quelle
Ich denke, Robin Girards Antwort würde für 3 und möglicherweise 4 Dimensionen ziemlich gut funktionieren, aber der Fluch der Dimensionalität würde verhindern, dass es darüber hinaus funktioniert. Sein Vorschlag führte mich jedoch zu einem verwandten Ansatz, der darin besteht, die kreuzvalidierte Kerneldichteschätzung auf die ersten drei Hauptkomponentenbewertungen anzuwenden. Dann kann ein sehr hochdimensionaler Datensatz noch in Ordnung gehandhabt werden.
Zusammenfassend gilt für i = 1 bis n
Ende für
Sortieren Sie das Li (für i = 1, .., n) und die Ausreißer sind diejenigen, deren Wahrscheinlichkeit unter einem bestimmten Schwellenwert liegt. Ich bin mir nicht sicher, was eine gute Schwelle wäre - das überlasse ich jedem, der die Zeitung darüber schreibt! Eine Möglichkeit besteht darin, ein Boxplot der Log-Werte (Li) zu erstellen und zu sehen, welche Ausreißer am negativen Ende erkannt werden.
quelle
Eine pädagogische Zusammenfassung der verschiedenen Methoden finden Sie in (1).
Für einige numerische Vergleiche der verschiedenen dort aufgelisteten Methoden können Sie (2) und (3) überprüfen .
Es gibt viele ältere (und weniger erschöpfende) numerische Vergleiche, die typischerweise in Büchern zu finden sind. Sie finden sie beispielsweise auf den Seiten 142-143 von (4).
Beachten Sie, dass alle hier diskutierten Methoden eine Open Source R-Implementierung haben, hauptsächlich über das rrcov- Paket.
quelle
Ich würde eine Art "einen Testalgorithmus weglassen" (n ist die Anzahl der Daten):
für i = 1 bis n
Ende für
sortiere das (für i = 1, .., n) und benutze ein Testverfahren mit mehreren Hypothesen, um zu sagen, welche nicht gut sind ...Li
Dies funktioniert, wenn n ausreichend groß ist. Sie können auch die "Auslassstrategie" verwenden, die relevanter sein kann, wenn Sie "Gruppen" von Ausreißern haben.
quelle
Sie können Kandidaten für "Ausreißer" unter den Stützpunkten des Ellipsoids mit minimaler Volumenbegrenzung finden. ( Effiziente Algorithmen , um diese Punkte in relativ hohen Dimensionen genau und ungefähr zu finden, wurden in den 1970er Jahren in einer Reihe von Arbeiten erfunden, da dieses Problem eng mit einer Frage im experimentellen Design verbunden ist.)
quelle
Mein neuartiger Ansatz war IT Jolliffe Principal Components Analysis . Sie führen eine PCA für Ihre Daten aus (Hinweis: PCA kann für sich genommen ein nützliches Tool zur Datenexploration sein). Statt jedoch die ersten paar Hauptkomponenten (Principal Components, PCs) zu betrachten, zeichnen Sie die letzten paar PCs. Diese PCs sind die linearen Beziehungen zwischen Ihren Variablen mit der kleinstmöglichen Varianz. Somit erkennen sie "exakte" oder nahezu exakte multivariate Beziehungen in Ihren Daten.
Eine grafische Darstellung der PC-Ergebnisse für den letzten PC zeigt Ausreißer an, die nicht leicht zu erkennen sind, wenn jede Variable einzeln betrachtet wird. Ein Beispiel ist für Größe und Gewicht - einige, die eine "überdurchschnittliche" Größe und ein "unterdurchschnittliches" Gewicht haben, würden vom letzten PC für Größe und Gewicht erkannt (vorausgesetzt, diese sind positiv korreliert), selbst wenn ihre Größe und ihr Gewicht nicht " extrem "einzeln (zB jemand der 180cm und 60kg war).
quelle
Ich habe niemanden gesehen, der Einflussfunktionen erwähnte . Ich habe diese Idee zum ersten Mal in Gnanadesikans multivariatem Buch gesehen .
In einer Dimension ist ein Ausreißer entweder ein extrem großer oder ein extrem kleiner Wert. Bei der multivariaten Analyse handelt es sich um eine Beobachtung, die aus der Masse der Daten entfernt wird. Aber welche Metrik sollten wir verwenden, um ein Extrem für den Ausreißer zu definieren? Es gibt viele Möglichkeiten. Die Mahalanobis-Distanz ist nur eine. Ich halte es für zwecklos und kontraproduktiv, nach Ausreißern jeder Art zu suchen. Ich würde fragen, warum Sie sich für den Ausreißer interessieren? Bei der Schätzung eines Mittelwerts können sie einen großen Einfluss auf diese Schätzung haben. Robuste Schätzer wiegen weniger und nehmen Ausreißer auf, testen sie jedoch nicht offiziell. In der Regression könnten die Ausreißer - wie Hebelpunkte - große Auswirkungen auf die Steigungsparameter im Modell haben. Mit bivariaten Daten können sie den geschätzten Korrelationskoeffizienten und in drei oder mehr Dimensionen den Mehrfachkorrelationskoeffizienten übermäßig beeinflussen.
Einflussfunktionen wurden von Hampel als Hilfsmittel für robuste Schätzungen eingeführt, und Mallows schrieb eine schöne, unveröffentlichte Abhandlung, in der sie ihre Verwendung befürworteten. Die Einflussfunktion ist eine Funktion des Punktes, an dem Sie sich im n-dimensionalen Raum befinden, und des Parameters. Es misst im Wesentlichen die Differenz zwischen der Parameterschätzung mit dem Punkt in der Berechnung und dem Punkt, der ausgelassen wird. Anstatt sich die Mühe zu machen, die beiden Schätzungen zu berechnen und die Differenz zu berechnen, können Sie häufig eine Formel dafür ableiten. Dann geben die Konturen mit konstantem Einfluss die Richtung an, die in Bezug auf die Schätzung dieses Parameters extrem ist, und geben somit an, wo im n-dimensionalen Raum nach dem Ausreißer zu suchen ist.
Weitere Informationen finden Sie in meinem Artikel von 1983 im American Journal of Mathematical and Management Sciences mit dem Titel "Die Einflussfunktion und ihre Anwendung auf die Datenvalidierung". Bei der Datenvalidierung wollten wir nach Ausreißern suchen, die die beabsichtigte Verwendung der Daten beeinflusst haben. Meiner Meinung nach sollten Sie Ihre Aufmerksamkeit auf Ausreißer lenken, die die Parameter, die Sie schätzen möchten, stark beeinflussen, und sich nicht so sehr für andere interessieren, die dies nicht tun.
quelle
Möglicherweise handelt es sich um ein Überschießen, Sie trainieren jedoch möglicherweise eine unbeaufsichtigte zufällige Gesamtstruktur mit den Daten und verwenden das Objektnäherungsmaß, um Ausreißer zu erkennen. Weitere Details hier .
quelle
Bei moderaten Dimensionen wie 3 erscheint eine Art von Kernel-Kreuzvalidierungstechnik, wie sie an anderer Stelle vorgeschlagen wurde, vernünftig und ist die beste, die ich mir ausdenken kann.
Bei höheren Dimensionen bin ich mir nicht sicher, ob das Problem lösbar ist. es landet ziemlich genau auf dem Territorium des 'Fluches der Dimensionalität'. Das Problem ist, dass Abstandsfunktionen dazu neigen, sehr schnell zu sehr großen Werten zu konvergieren, wenn Sie die Dimensionalität erhöhen, einschließlich der von Verteilungen abgeleiteten Abstände. Wenn Sie einen Ausreißer als "einen Punkt mit einer vergleichsweise großen Abstandsfunktion im Verhältnis zu den anderen" definieren und alle Ihre Abstandsfunktionen anfangen, sich zu vereinigen, weil Sie sich in einem hochdimensionalen Raum befinden, dann sind Sie in Schwierigkeiten .
Ohne irgendeine Art von Verteilungsannahme, die Sie in ein Problem der Wahrscheinlichkeitsklassifizierung verwandeln lässt, oder zumindest eine Rotation, mit der Sie Ihren Raum in "Rauschdimensionen" und "informative Dimensionen" unterteilen können, denke ich, dass die Geometrie hochdimensionaler Räume eine einfache - oder zumindest verlässliche - Identifizierung von Ausreißern verbieten.
quelle
Ich bin mir nicht sicher, was Sie meinen, wenn Sie sagen, Sie denken nicht an ein Regressionsproblem, sondern an "echte multivariate Daten". Meine erste Antwort wäre, die Mahalanobis-Distanz zu berechnen, da es nicht erforderlich ist, dass Sie eine bestimmte IV oder DV angeben, aber im Kern (soweit ich das verstehe) hängt es mit einer Hebelstatistik zusammen.
quelle
Mir ist nicht bewusst, dass dies jemand tut, aber ich versuche im Allgemeinen gerne, die Dimensionalität zu reduzieren, wenn ich ein solches Problem habe. Sie könnten eine Methode aus vielfältigem Lernen oder nichtlinearer Dimensionsreduktion untersuchen .
Ein Beispiel wäre eine Kohonen-Karte . Eine gute Referenz für R ist "Selbst- und Superorganisierende Karten in R: Das Kohonen-Paket" .
quelle
Meine erste Antwort wäre, wenn Sie multivariate Regression für die Daten durchführen können, die Residuen dieser Regression zu verwenden, um Ausreißer zu erkennen. (Ich weiß, dass Sie sagten, dass es kein Regressionsproblem ist, also könnte dies Ihnen nicht helfen, sorry!)
Ich kopiere einiges davon von einer Stackoverflow-Frage, die ich bereits beantwortet habe und die einen Beispiel- R- Code enthält
Zuerst werden einige Daten erstellt und dann mit einem Ausreißer infiziert.
Es ist oft am nützlichsten, die Daten grafisch zu untersuchen (Ihr Gehirn kann Ausreißer viel besser erkennen als Mathematik).
Sie können dann Statistiken verwenden, um kritische Grenzwerte mithilfe des Lund-Tests zu berechnen (siehe Lund, RE 1975, "Tabellen für einen ungefähren Test für Ausreißer in linearen Modellen", Technometrics, Band 17, Nr. 4, S. 473) -476. Und Prescott, S. 1975, "Ein ungefährer Test für Ausreißer in linearen Modellen", Technometrics, Band 17, Nr. 1, S. 129-132.)
Natürlich gibt es auch andere Ausreißertests als den Lund-Test (Grubbs), aber ich bin mir nicht sicher, welche für multivariate Daten besser geeignet sind.
quelle
vw-top-errors
@ goo.gl/l7SLlB (Beachten Sie, dass die Beispiele dort ein Y haben, aber ich habe die gleiche Technik angewendet, auch bei unbeaufsichtigten Problemen sehr erfolgreich, indem ich YEine der oben genannten Antworten wurde in Mahalanobis-Entfernungen angesprochen. Vielleicht hilft ein weiterer Schritt und die Berechnung gleichzeitiger Konfidenzintervalle dabei, Ausreißer zu erkennen!
quelle