Gibt es eine einfache Möglichkeit, Ausreißer zu erkennen?

14

Ich frage mich, ob es eine einfache Möglichkeit gibt, Ausreißer zu erkennen.

Bei einem meiner Projekte, bei dem es sich im Grunde genommen um eine Korrelation zwischen der Häufigkeit der Teilnahme der Befragten an körperlicher Aktivität in einer Woche und der Häufigkeit ihrer wöchentlichen Mahlzeiten außerhalb des Hauses (Fast Food) handelte, habe ich ein Streudiagramm gezeichnet und das Diagramm buchstäblich entfernt Datenpunkte, die extrem waren. (Das Streudiagramm zeigte eine negative Korrelation.)

Dies beruhte auf einer Wertbeurteilung (basierend auf dem Streudiagramm, in dem diese Datenpunkte eindeutig extrem waren). Ich habe keine statistischen Tests durchgeführt.

Ich frage mich nur, ob dies eine vernünftige Art ist, mit Ausreißern umzugehen.

Ich habe Daten von 350 Personen, so dass der Verlust von (etwa) 20 Datenpunkten für mich keine Sorge ist.

Amarald
quelle
Siehe auch die Antworten auf die ähnliche Frage rigorose Definition eines Ausreißers
Jonas
3
Ebenfalls sehr eng verwandt ist stats.stackexchange.com/questions/175 . Viele mögliche Methoden zur Erkennung von Ausreißern sind in den Antworten unter stats.stackexchange.com/questions/213 beschrieben . Aber mehr auf den Punkt gebracht wäre ein Zusammenhang : Was machst du mit diesem Streudiagramm? Welche Schlussfolgerungen versuchen Sie daraus zu ziehen? Einige Schlussfolgerungen hängen kaum davon ab, was Sie mit Ausreißern tun, während andere möglicherweise kritisch davon abhängen. Dies weist darauf hin, dass die Methoden, mit denen Sie Ausreißer identifizieren und behandeln, von der beabsichtigten Analyse abhängen müssen.
Whuber
In Wirtschaftsdatensätzen lautet die Standardpraxis lediglich "Wir skalieren den Datensatz mit 2,5% und 97,5%" oder alternativ 1% und 99%. Dann löschen sie einfach die Beobachtungen, die außerhalb dieses Quantilbereichs liegen.
@ Harokitty Winsorising scheint zu bedeuten, die Werte zu beschneiden, anstatt sie zu verwerfen.
Peter Wood
Ich würde empfehlen, dass Sie die Streudiagramme auch unbearbeitet melden, abgesehen von Fehlern bei der Datenaufzeichnung. Es ist möglich, dass es eine oder mehrere zusätzliche unterschiedliche Populationen gibt. Ein Beispiel finden Sie im Wikipedia-Eintrag zum Hertzsprung-Russell-Diagramm unter en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones,

Antworten:

21

Es gibt keinen einfachen Weg, um Ausreißer zu entfernen. Es gibt zwei Arten von Ausreißern:

1) Dateneingabefehler. Diese sind oft am einfachsten zu erkennen und immer am einfachsten zu handhaben. Wenn Sie die richtigen Daten finden, korrigieren Sie diese. Wenn nicht, löschen Sie es.

2) Legitime Daten, die ungewöhnlich sind. Das ist viel schwieriger. Bei bivariaten Daten wie Ihren kann der Ausreißer univariat oder bivariat sein.

a) Univariate. Erstens hängt "ungewöhnlich" von der Verteilung und der Stichprobengröße ab. Sie geben uns den Stichprobenumfang von 350 an, aber wie ist die Verteilung? Es ist eindeutig nicht normal, da es sich um eine relativ kleine Ganzzahl handelt. Was unter einem Poisson ungewöhnlich ist, wäre nicht unter einem negativen Binomial. Ich würde eine negative Binomialbeziehung ohne Inflation vermuten.

Aber auch wenn Sie die Verteilung haben, werden die (möglichen) Ausreißer die Parameter beeinflussen. Sie können sich die Verteilungen "Auslassen" ansehen, in denen Sie prüfen, ob der Datenpunkt q ein Ausreißer wäre, wenn die Daten alle Punkte außer q hätten. Was aber, wenn es mehrere Ausreißer gibt?

b) Bivariate. Hier ist keiner der Variablenwerte an sich ungewöhnlich, aber zusammen sind sie ungerade. Es gibt einen möglicherweise apokryphen Bericht, der besagt, dass es in den USA einst 20.000 12-jährige Witwen gab. Zwölfjährige sind keine Seltenheit, Witwen auch nicht, aber Zwölfjährige sind es.

In Anbetracht dessen ist es möglicherweise einfacher, ein solides Maß für die Beziehung anzugeben.

Peter Flom - Setzen Sie Monica wieder ein
quelle
Vielen Dank. Ich denke, eine Vertrauensellipse wäre vielleicht ein guter Indikator für Ausreißer, da sie den Prozentsatz der Daten anzeigt, die innerhalb eines bestimmten Vertrauensniveaus liegen würden (bei einer bivariaten Normalverteilung).
Amarald,
Ihre Daten können nicht bivariant normal sein, da sie aus nicht negativen Ganzzahlen bestehen
Peter Flom - Reinstate Monica
18

Ich habe viel über Ausreißer recherchiert, insbesondere als ich von 1978 bis 1980 bei Oak Ridge an der Validierung von Energiedaten gearbeitet habe. Es gibt formelle Tests für univariate Ausreißer für normale Daten (z. B. Grubbs-Test und Dixons Ratio-Test). Es gibt Tests für multivariate Ausreißer und Zeitreihen. Das Buch von Barnett und Lewis über "Ausreißer in statistischen Daten" ist die Bibel über Ausreißer und deckt so ziemlich alles ab.

Als ich bei Oak Ridge an der Datenvalidierung arbeitete, hatten wir große multivariate Datensätze. Für univariate Ausreißer gibt es eine Richtung für Extreme (hoch über dem Mittelwert und hoch unter dem Mittelwert). Für multivariate Ausreißer gibt es jedoch viele Möglichkeiten, nach Ausreißern zu suchen. Unsere Philosophie war es zu überlegen, wie die Daten verwendet werden sollen. Wenn Sie versuchen, bestimmte Parameter wie eine bivariate Korrelation oder einen Regressionskoeffizienten zu schätzen, möchten Sie in die Richtung schauen, die den größten Effekt auf den interessierenden Parameter hat. Zu dieser Zeit hatte ich Mallows 'unveröffentlichte Arbeit über Einflussfunktionen gelesen. Die Verwendung von Einflussfunktionen zur Erkennung von Ausreißern wird im multivariaten Analysebuch von Gnanadesikan behandelt. Natürlich finden Sie es auch in Barnett und Lewis.

Die Einflussfunktion für einen Parameter wird an Punkten im multivariaten Raum der Beobachtungen definiert und misst im Wesentlichen die Differenz zwischen der Parameterschätzung beim Einbeziehen des Datenpunkts und dem Auslassen des Datenpunkts. Sie können solche Schätzungen mit jedem Stichprobenpunkt durchführen, aber normalerweise können Sie eine schöne funktionale Form für die Einflussfunktion ableiten, die Einblick und schnellere Berechnung ermöglicht.

Zum Beispiel zeige ich in meinem Artikel im American Journal of Mathematical and Management Science von 1982 "Die Einflussfunktion und ihre Anwendung auf die Datenvalidierung" die analytische Formel für die Einflussfunktion für die bivariate Korrelation und dass die Konturen des konstanten Einflusses Hyperbel sind. Die Konturen geben also die Richtung in der Ebene an, in der die Einflussfunktion am schnellsten zunimmt.

In meinem Aufsatz zeige ich, wie wir die Einflussfunktion für die bivariate Korrelation mit den FPC-Form-4-Daten zur Erzeugung und zum Verbrauch von Energie angewendet haben. Es gibt eine eindeutig hohe positive Korrelation zwischen den beiden und wir fanden einige Ausreißer, die einen großen Einfluss auf die Schätzung der Korrelation hatten. Weitere Untersuchungen ergaben, dass mindestens einer der Punkte fehlerhaft war und wir ihn korrigieren konnten.

Ein wichtiger Punkt, den ich immer erwähne, wenn ich über Ausreißer diskutiere, ist, dass die automatische Zurückweisung falsch ist. Der Ausreißer ist nicht immer ein Fehler und liefert manchmal wichtige Informationen zu den Daten. Gültige Daten sollten nicht entfernt werden, nur weil sie nicht unserer Realitätstheorie entsprechen. Ob es schwierig ist oder nicht, der Grund, warum der Ausreißer aufgetreten ist, sollte immer untersucht werden.

Ich sollte erwähnen, dass dies nicht das erste Mal ist, dass multivariate Ausreißer auf dieser Website diskutiert wurden. Eine Suche nach Ausreißern würde wahrscheinlich zu mehreren Fragen führen, bei denen multivariate Ausreißer diskutiert wurden. Ich weiß, dass ich zuvor auf meine Arbeit und diese Bücher verwiesen und Links zu ihnen gegeben habe.

Auch wenn es um die Ablehnung von Ausreißern geht, haben viele von uns auf dieser Website dagegen geraten, insbesondere wenn dies ausschließlich auf der Grundlage eines statistischen Tests erfolgt. Peter Huber erwähnt oft robuste Schätzungen als Alternative zur Ausreißer-Ablehnung. Die Idee ist, dass robuste Prozeduren die Ausreißer abschwächen und ihre Auswirkungen auf die Schätzung verringern, ohne dass sie hartnäckig zurückgewiesen und ein nicht robuster Schätzer verwendet werden muss.

Die Einflussfunktion wurde ursprünglich von Frank Hampel in seiner Dissertation in den frühen 1970er Jahren (1974, glaube ich) entwickelt. Seine Idee war es, mithilfe von Einflussfunktionen Schätzer zu identifizieren, die nicht robust gegenüber Ausreißern sind, und dabei zu helfen, robuste Schätzer zu entwickeln.

Hier ist ein Link zu einer früheren Diskussion zu diesem Thema, in der ich einige meiner Arbeiten zur Erkennung von Ausreißern in Zeitreihen mithilfe von Einflussfunktionen erwähnte.

Michael R. Chernick
quelle
2

Ein weiterer einfacher Ansatz für den Umgang mit Ausreißern ist die Verwendung nicht parametrischer Statistiken. Wahrscheinlich würde mit Ihrer Stichprobengröße ein Spearman-Rho als Index für die Korrelation gut funktionieren. (Beachten Sie jedoch, dass nichtparametrische Statistiken in Rangfolge bei nichtlinearen Beziehungen wenig hilfreich sind.)

Wenn Sie ein Pearson-r (eine parametrische Statistik) verwenden möchten und die Entfernung nach Cook nicht berechnen können, verwenden Sie möglicherweise die Faustregel, dass jeder Datenpunkt mehr als 2,67 Standardabweichungen (SD) vom Mittelwert aufweist oder 4,67 sd vom Mittelwert ist ein Ausreißer bzw. ein Extrem. Dies sind typische Grenzwerte für Ausreißer und extreme Datenpunkte, die in einem statistischen Standardanalyseprogramm (SPSS) verwendet werden.

Nur weil ein Datenpunkt ein Ausreißer ist, bedeutet dies nicht, dass es sich um fehlerhafte Daten handelt, die verworfen werden müssen. Sie können Ihre Korrelation mit und ohne Extrempunkte berechnen und von dort aus fortfahren.

Joel W.
quelle
1

Vielleicht möchten Sie Cook's Distance ausprobieren. Im Wikipedia-Artikel finden Sie Vorschläge für Grenzwerte. Wenn Sie auf ein Regressionsmodell zusteuern, können Sie auch eine robuste Regression ausprobieren.

Eric Brown
quelle
1
Dies scheint eher ein Kommentar als eine Antwort zu sein. Die Antworten sind in der Regel länger und detaillierter. Wenn Sie beispielsweise begründen würden, warum Cooks Entfernung ein guter Test für Ausreißer ist, wäre dies eine Antwort.
Peter Flom - Reinstate Monica
1

Entfernen Sie erstens keine atypischen Werte, es sei denn, Sie sind sich sicher, dass sie nicht in der Studie enthalten sind! Sie können einige wichtige Informationen enthalten (Variabilität). Sie sollten sie löschen, wenn offensichtlich ist, dass der Ausreißer auf falsch eingegebene oder gemessene Daten zurückzuführen ist. Wenn Sie die Stichprobenmethode zur Erfassung Ihrer Daten nicht kennen, sollten Sie atypische Werte und ihre Auswirkungen wie folgt identifizieren:

  1. eich )> 2 . Wenn Sie mehr Residuen haben, können Sie Ausreißer vermuten.

  2. Abstandsgrad zum Schwerpunkt im Raum von x: hichich(Hebelwirkung). Wenn einigehichich ist sehr hoch Sie haben eine Beobachtung, die Ihr Modell verzerren kann, weil sie außerhalb des Bereichs Ihrer Studie liegt.

  3. Grad des Einflusses auf das angepasste Modell: Einflusspunkte sind diejenigen, die genug Gewicht haben, um Ihr Modell zu ändern. Dann unterscheiden sich die Koeffizienten des angepassten Modells unter Verwendung aller n Beobachtungen stark von den Koeffizienten des angepassten Modells unter Verwendung aller Punkte, jedoch nicht dieser Beobachtungich-th.
    Die Cook-Distanz oder Cook-D ist eine häufig verwendete Schätzung des Einflusses eines Datenpunkts. :DCich=eich2·hichich/[(1-hichich)·p]

Mögliche Lösungen:

  • Variablen transformieren und / oder neue Variablen zum Modell hinzufügen.
  • Für einflussreiche Beobachtungen, die nichts als Ausreißer sind, wenn nicht viele, können Sie diese Personen entfernen.
user7334982
quelle