Rigorose Definition eines Ausreißers?

44

In der Statistik wird oft vom Umgang mit Ausreißern gesprochen. Was mich daran stört, ist, dass die Definition eines Ausreißers, soweit ich das beurteilen kann, völlig subjektiv ist. Wenn beispielsweise die tatsächliche Verteilung einer Zufallsvariablen sehr stark oder bimodal ist, werden durch eine Standardvisualisierung oder eine Zusammenfassungsstatistik zum Erkennen von Ausreißern Teile der Verteilung, aus der Sie eine Stichprobe erstellen möchten, fälschlicherweise entfernt. Was ist eine strenge Definition eines Ausreißers, wenn es einen gibt, und wie kann mit Ausreißern umgegangen werden, ohne unangemessene Mengen an Subjektivität in eine Analyse einfließen zu lassen?

dsimcha
quelle
Wenn Sie für eine bestimmte Distribution wissen möchten, fragen Sie nach Ihrem Beispiel. Es wird für verschiedene Situationen unterschiedlich sein.
John
8
Nun, ich würde erwarten, dass Sie eine haben, rigorous definition of an outlierwenn Sie in der Lage sind, unreasonable amounts of subjectivityobjektive Weise zu definieren ;-), Danke
essen Sie den
1
Die Definition kann jedoch je nach zugrunde liegender Verteilung und Situation variieren. Ich könnte sagen ± 1,5 IQR oder 3 SD oder so. Aber ich könnte einen völlig anderen Ansatz wählen, wenn ich zwei Arten von Maßnahmen hätte, nämlich Reaktionszeit und Genauigkeit. Ich kann sagen, dass die RTs von einer gewissen Genauigkeit abhängen. Sie können alle gut und mathematisch streng sein und unterschiedliche Anwendungen und Bedeutungen haben.
John
2
Es gibt VIELE strenge Definitionen von Ausreißern. Aber die Wahl unter diesen kann willkürlich scheinen. Aber ich denke, dies ist Teil des Missverständnisses, dass Statistik ein Thema ist, in dem jedes Problem eine richtige Antwort hat.
Peter Flom - Reinstate Monica

Antworten:

23

Solange Ihre Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, können Sie einen Ausreißer rigoros als ein Ereignis definieren, das durch den beobachteten Prozess zu unwahrscheinlich generiert wurde (wenn Sie es für "zu unwahrscheinlich" halten, dass es nicht rigoros ist) Alle Hypothesentests sind).

Dieser Ansatz ist jedoch auf zwei Ebenen problematisch: Es wird davon ausgegangen, dass die Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, und es besteht das Risiko, dass Ausreißer als Datenpunkte betrachtet werden, die von einigen magischen Feen in Ihren Datensatz geschmuggelt wurden.

In Abwesenheit von magischen Datenfehlern stammen alle Daten aus Ihrem Experiment, und daher ist es eigentlich nicht möglich, Ausreißer zu haben, sondern nur seltsame Ergebnisse. Dies kann durch Aufzeichnungsfehler (z. B. ein Haus mit 400.000 Schlafzimmern für 4 Dollar), systematische Messprobleme (der Bildanalysealgorithmus meldet große Flächen, wenn sich das Objekt zu nahe an der Grenze befindet) und experimentelle Probleme (manchmal fallen Kristalle aus der Lösung aus) verursacht werden. die ein sehr hohes Signal geben) oder Merkmale Ihres Systems (eine Zelle kann sich manchmal in drei statt in zwei teilen), aber sie können auch das Ergebnis eines Mechanismus sein, den niemand jemals in Betracht gezogen hat, weil er selten ist und Sie forschen, was bedeutet, dass einige der Dinge, die Sie tun, einfach noch nicht bekannt sind.

Im Idealfall nehmen Sie sich die Zeit, um jeden Ausreißer zu untersuchen, und entfernen ihn erst aus Ihrem Datensatz, wenn Sie verstanden haben, warum er nicht zu Ihrem Modell passt. Dies ist zeitaufwändig und subjektiv, da die Gründe in hohem Maße vom Experiment abhängen. Die Alternative ist jedoch schlimmer: Wenn Sie nicht verstehen, woher die Ausreißer stammen, haben Sie die Wahl, Ihre Ergebnisse von Ausreißern "verfälschen" zu lassen. oder definieren Sie einen "mathematisch rigorosen" Ansatz, um Ihr Unverständnis zu verbergen. Mit anderen Worten, wenn Sie nach "mathematischer Strenge" streben, können Sie wählen, ob Sie keine signifikante Wirkung erzielen oder nicht in den Himmel gelangen möchten.

BEARBEITEN

Wenn Sie nur eine Liste von Zahlen haben, ohne zu wissen, woher sie kommen, können Sie nicht sagen, ob ein Datenpunkt ein Ausreißer ist, da Sie immer von einer Verteilung ausgehen können, bei der alle Daten Lieferanten sind.

Jonas
quelle
3
Es werden jedoch nicht alle Ausreißer aus einem Experiment generiert. Ich habe mit einem großen Datensatz gearbeitet, der die Erfassung von Immobilieninformationen in einer Region beinhaltete (Verkaufspreis, Anzahl der Schlafzimmer, Quadratmeter usw.), und ab und zu gab es Dateneingabefehler, und ich hatte einen 400.000-Zimmer-Haus gehen für 4 Dollar, oder so etwas Unsinniges. Ich würde denken, dass ein Teil des Ziels der Bestimmung eines Ausreißers darin besteht, zu sehen, ob es möglich ist, aus den Daten generiert zu werden, oder ob es sich nur um einen Eingabefehler handelt.
Christopher Aden
2
@Christopher Aden: Ich würde diesen Teil des experimentellen Prozesses in Betracht ziehen. Grundsätzlich muss man verstehen, wie die Daten generiert wurden, um Ausreißer entfernen zu können, dh keine Ausreißer ohne triftigen Grund entfernen zu können. Ansonsten stilisieren Sie nur Ihre Daten. Ich habe meine Antwort bearbeitet, um dies ein bisschen besser widerzuspiegeln.
Jonas
Dies ist durchaus vernünftig, setzt jedoch voraus, dass Sie bereits über ausreichende Vorkenntnisse in Bezug auf die tatsächliche Verteilung verfügen. Ich habe mehr über Szenarien nachgedacht, in denen dies nicht der Fall ist und die sehr schwer oder bimodal sein können.
Dsimcha
@dsimcha: Ich glaube nicht, dass Sie in diesem Fall Ausreißer identifizieren können (siehe auch meine Bearbeitung).
Jonas
2
@dsimcha - Sie haben immer Vorwissen! Wie wurden Ihnen die Daten mitgeteilt? du weißt immer immer so viel. Daten tauchen nicht einfach auf magische Weise auf. und Sie können immer vorläufige Annahmen treffen. "Ausreißer", die auf diesen Annahmen basieren, geben Ihnen im Grunde einen Hinweis darauf, dass etwas in Ihren Annahmen nicht stimmt. Indem Sie den "Ausreißer" untersuchen (der immer relativ ist), können Sie Ihr Modell verbessern.
Wahrscheinlichkeitslogik
13

Sie haben Recht, dass das Entfernen von Ausreißern wie eine subjektive Übung aussehen kann, aber das bedeutet nicht, dass es falsch ist. Das zwingende Bedürfnis, für jede Entscheidung in Bezug auf Ihre Datenanalyse immer einen strengen mathematischen Grund zu haben, ist oft nur ein dünner Schleier künstlicher Strenge über der ohnehin subjektiven Übung. Dies gilt insbesondere dann, wenn Sie für jede Situation, auf die Sie stoßen, dieselbe mathematische Rechtfertigung anwenden möchten. (Wenn es kugelsichere, klare mathematische Regeln für alles gäbe, bräuchten Sie keinen Statistiker.)

In Ihrer Long-Tail-Verteilungssituation gibt es beispielsweise keine garantierte Methode, um einfach anhand der Zahlen zu entscheiden, ob Sie eine zugrunde liegende Interessensverteilung mit Ausreißern oder zwei zugrunde liegende Interessensverteilungen haben, bei denen Ausreißer nur Teil einer von ihnen sind. Oder, der Himmel verbietet, nur die tatsächliche Verteilung von Daten.

Je mehr Daten Sie sammeln, desto mehr gelangen Sie in die Regionen mit niedriger Wahrscheinlichkeit einer Verteilung. Wenn Sie 20 Proben sammeln, ist es sehr unwahrscheinlich, dass Sie einen Wert mit einem Z-Score von 3,5 erhalten. Wenn Sie 10.000 Proben sammeln, erhalten Sie höchstwahrscheinlich eine und dies ist ein natürlicher Bestandteil der Verteilung. Wie entscheiden Sie sich angesichts des oben Gesagten, nur weil etwas extrem ist, um es auszuschließen?

Die Auswahl der allgemein besten Analysemethoden ist oft subjektiv. Ob es unangemessen subjektiv ist, hängt von der Erklärung der Entscheidung und vom Ausreißer ab.

John
quelle
+1 Barnett und Lewis, die das Buch über Ausreißer geschrieben haben , geben an, "ein Ausreißer in einem Datensatz [ist] eine Beobachtung (oder eine Teilmenge von Beobachtungen), die mit dem Rest dieses Datensatzes unvereinbar zu sein scheint " [auf S. . 7]. Sie fahren fort: "Es ist eine subjektive Beurteilung des Beobachters, ob eine Beobachtung ... zur Kontrolle ausgewählt wird oder nicht. ... Was den Ausreißer auszeichnet, ist seine Auswirkung auf den Beobachter .... "
Whuber
"Das Buch" ist hier etwas mehrdeutig. Ich würde Barnett und Lewis als die führende Monographie bezeichnen, aber es ist nicht das einzige Buch über Ausreißer. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 ist neu. Es gibt auch ein älteres Buch von DM Hawkins.
Nick Cox
9

Ich glaube nicht, dass es möglich ist, einen Ausreißer zu definieren, ohne ein Modell des zugrunde liegenden Prozesses anzunehmen, aus dem die Daten hervorgehen. Ohne ein solches Modell haben wir keinen Bezugsrahmen, um zu entscheiden, ob die Daten anomal oder "falsch" sind. Die Definition eines Ausreißers, die ich für nützlich befunden habe, ist, dass ein Ausreißer eine Beobachtung (oder Beobachtungen) ist, die nicht mit einem Modell in Einklang gebracht werden kann, das ansonsten eine gute Leistung erbringt.

Dikran Beuteltier
quelle
2
Hmm ... In seinem EDA-Text hat John Tukey Ausreißer spezifisch definiert, ohne überhaupt Modelle zu verwenden.
Whuber
7
Sie können Ausreißer ohne Modell definieren, aber ich habe festgestellt, dass solche Definitionen nicht hilfreich sind. Übrigens meine ich mit Modell nicht unbedingt ein statistisches Modell, das explizit an die Daten angepasst wurde. Jede Definition eines Ausreißers erfordert, dass Sie eine Annahme darüber treffen, welche Werte Sie erwarten und welche Werte Sie nicht erwarten. Ich denke, es ist besser, wenn diese Annahmen (dh das Modell) explizit gemacht werden. Es gibt auch den Punkt, dass Sie in EDA die Daten untersuchen und Ihre Definition eines Ausreißers für EDA sehr unterschiedlich sein kann als für die Anpassung eines endgültigen Modells.
Dikran Marsupial
6

Hier gibt es viele hervorragende Antworten. Ich möchte jedoch darauf hinweisen, dass zwei Fragen miteinander verwechselt werden. Die erste lautet: Was ist ein Ausreißer? Das ist ganz einfach:

Ein Ausreißer ist ein Datenpunkt, der aus einem anderen Bevölkerungs- / Verteilungs- / Datenerzeugungsprozess stammt als derjenige, den Sie untersuchen wollten / der Rest Ihrer Daten.

Die zweite Frage lautet: Woher weiß / erkenne ich, dass ein Datenpunkt ein Ausreißer ist? Das ist leider sehr schwierig. Die hier gegebenen Antworten (die wirklich sehr gut sind und die ich nicht verbessern kann) werden bei dieser Aufgabe recht hilfreich sein.

gung - Wiedereinsetzung von Monica
quelle
1
Dies ist eine zum Nachdenken anregende Antwort. Nehmen wir also an, ich generiere iid-Werte aus einer Normalverteilung - sie erstrecken sich wahrscheinlich über einen Bereich von etwa bis - und generieren einen weiteren Wert aus einer Normalverteilung und diesem passiert gleich (für die es eine Chance von zu gibt). Es ist höchst unwahrscheinlich, dass zusätzliche als Ausreißer eingestuft werden. Behauptest du das wirklich? Ihr Zitat lässt mich das denken, aber ich sehe nicht, wie dies praktisch umgesetzt werden kann. ( 0 , 1 ) - 2,5 2,5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
Whuber
1
@whuber, ja. Ich sage, es ist ein Ausreißer, obwohl Sie es nie bemerken würden (was Sie, wie ich vermute, mit praktisch einsatzbereit meinen).
gung - Reinstate Monica
1
Ich schätze die Unterscheidung, die Sie machen. Ich wollte nur auf den scharfen Kontrast zwischen Ihrer Definition und den meisten anderen Definitionen oder Beschreibungen von Ausreißern in diesem Thread hinweisen. Es scheint nicht so, als würde dies zu zufriedenstellenden praktischen Abläufen führen: Sie müssten immer akzeptieren, dass ein großer Teil Ihres Datensatzes möglicherweise "außerhalb" liegt, ohne jedoch die Möglichkeit zu haben, dies zu erkennen oder zu beheben.
Whuber
@whuber, ich stimme voll und ganz zu. Ich halte dies für etwas analog zu Hypothesentests, bei denen (z. B.) 2 Gruppen sich um einen sehr kleinen, nicht nachweisbaren Betrag oder um einen mäßigen Betrag unterscheiden können, die Stichproben, mit denen Sie am Ende endeten, sich jedoch nur zufällig sehr ähnelten. Aus theoretischer Sicht lohnt es sich jedoch, die Unterscheidung zu verstehen und beizubehalten.
gung - Reinstate Monica
1
@whuber, du hast recht. Einige machen diese Unterscheidung, aber viele sind über diese Ideen nicht klar. Meine Position ist, dass es keine andere sinnvolle Realität für "Ausreißer" gibt als Kontaminanten . Nichtsdestotrotz sollten die Leute das Problem auch / stattdessen als besorgt betrachten, wenn Ihre Ergebnisse allein von ihnen bestimmt werden (ob sie "echt" sind oder nicht), und daher sind Ihre Ergebnisse sehr fragil. Kurz gesagt, es gibt keinen Grund, sich über Punkte Sorgen zu machen, die aus Ihrer Bevölkerung stammen und Ihre Ergebnisse nicht eindeutig beeinflussen. Sobald Sie sich mit diesen beiden Themen befasst haben, bleibt nichts mehr für "Ausreißer" übrig.
gung - Reinstate Monica
6

Definition 1: Wie bereits erwähnt, ist ein Ausreißer in einer Gruppe von Daten, die denselben Prozess widerspiegeln (z. B. Prozess A), eine Beobachtung (oder eine Reihe von Beobachtungen), die wahrscheinlich nicht auf Prozess A zurückzuführen ist.

Diese Definition beinhaltet sicherlich eine Schätzung der Wahrscheinlichkeitsfunktion des Prozesses A (daher ein Modell) und die Festlegung der unwahrscheinlichen Bedeutung (dh die Entscheidung, wo aufzuhören ist ...). Diese Definition ist die Wurzel der Antwort, die ich hier gegeben habe . Es handelt sich eher um Ideen zum Testen der Signifikanz oder der Anpassungsgüte von Hypothesen .

Definition 2 Ein Ausreißer ist eine Beobachtung in einer Gruppe von Beobachtungen so dass bei der Modellierung der Beobachtungsgruppe mit einem gegebenen Modell die Genauigkeit höher ist, wenn entfernt und separat behandelt wird (mit einer Mischung, im Sinne dessen, was ich hier erwähne ).G xxGx

Diese Definition beinhaltet ein "gegebenes Modell" und ein Maß für die Genauigkeit. Ich denke, diese Definition ist eher von der praktischen Seite und liegt eher am Ursprung von Ausreißern. In Origin war die Ausreißererkennung ein Werkzeug für zuverlässige Statistiken .

Offensichtlich können diese Definitionen sehr ähnlich sein, wenn Sie verstehen, dass die Berechnung der Wahrscheinlichkeit in der ersten Definition die Modellierung und Berechnung einer Punktzahl umfasst :)

Robin Girard
quelle
2

Ein Ausreißer ist ein Datenpunkt, der mir nach meinem derzeitigen Verständnis des Prozesses, der diese Daten generiert, unangenehm ist.

Ich glaube, diese Definition ist so streng wie möglich.

Wayne
quelle
Vergleichen Sie dies mit der Definition von John Tukey (er hat den Begriff "außerhalb" verwendet): "Wenn wir uns einige Wertemengen ansehen, sehen wir, dass bestimmte Werte offensichtlich weit über die anderen hinausgehen. ... Es ist bequem, eine Regel von zu haben Daumen, der bestimmte Werte als "außerhalb" auswählt ... "Später fasst er dies zusammen als" ... Identifizierung einzelner Werte, die ungewöhnlich sein können. " [EDA, Kapitel 2]. Er betont im gesamten Buch, dass wir Daten beschreiben, anstatt vorzugeben, einen Prozess zu verstehen, und dass immer mehrere gültige Beschreibungen möglich sind.
Whuber
In ähnlicher Weise sind "Ausreißer Stichprobenwerte, die in Bezug auf die Mehrheit der Stichprobe Überraschungen hervorrufen" (WN Venables und BD Ripley. 2002. Moderne angewandte Statistik mit S. New York: Springer, S.119). Überraschung ist jedoch im Kopf des Betrachters und hängt von einem stillschweigenden oder expliziten Modell der Daten ab. Es kann ein anderes Modell geben, unter dem der Ausreißer überhaupt nicht überrascht, sagen wir, dass die Daten tatsächlich lognormal oder gamma sind und nicht normal.
Nick Cox
@ Nick Das stimmt mit Barnett und Lewis überein, die ich in einem Kommentar zu Johns Antwort zitiere .
Whuber
@whuber: Du sagst "Contrast this", was meiner Meinung nach bedeutet, dass du nicht einverstanden bist, aber ich bin mir nicht sicher. Ich würde argumentieren, dass Modellbildung - implizit und vielleicht naiv - der Grund ist, warum wir Muster in Daten sehen, oder der Mann auf dem Mond oder Ausreißer. Das Modell mag keine physikalische / chemische / wirtschaftliche Grundlage haben, aber wir haben ein Modell angenommen. Ansonsten gibt es keine Überraschung, es gibt kein "draußen".
Wayne
Tukey besteht darauf, dass wir bei der Beschreibung von Daten diese nicht unbedingt modellieren . Es ist fair, Ihre Definition von "Modell" auf Datenbeschreibungen zu erweitern, aber dann wird der Begriff fast zu allgemein, um nützlich zu sein. Aus der Sicht von Tukey (wie ich es natürlich interpretiere) gibt es keine Besorgnis über Gesichtsverlust, noch gibt es eine Frage der Bequemlichkeit oder nicht. Obwohl ich Ihre Motivation respektiere, denke ich, dass Ihre Haltung (die sich in "Gesichtsrettung" und "Unbequemlichkeit" niederschlägt) weniger konstruktiv ist als andere Herangehensweisen an diese Frage.
Whuber
0

Definieren Sie einen Ausreißer als Mitglied dieser minimalen Menge von Elementen, die aus einem Datensatz der Größe n entfernt werden müssen, um sicherzustellen, dass alle (2 ^ n -1) eindeutigen Teilmengen der RUM - Tests mit einem Konfidenzniveau von 95% zu 100% eingehalten werden Daten. Zur Definition des RUM-Tests siehe Karian- und Dudewicz-Text zur Anpassung von Daten an PDFs mit R (September 2010).

Jerry Alderman
quelle
-2

Ausreißer sind nur im frequentistischen Bereich wichtig. Wenn ein einzelner Datenpunkt Ihrem Modell eine Verzerrung hinzufügt, die durch eine von Ihrer Theorie vorgegebene zugrunde liegende Verteilung definiert wird, ist dies ein Ausreißer für dieses Modell. Die Subjektivität liegt in der Tatsache, dass Sie eine andere Menge von Punkten als Ausreißer haben können, wenn Ihre Theorie ein anderes Modell aufstellt.


quelle
1
Behaupten Sie, dass Ausreißer in der Bayes'schen Datenanalyse unwichtig sind?
whuber