In der Statistik wird oft vom Umgang mit Ausreißern gesprochen. Was mich daran stört, ist, dass die Definition eines Ausreißers, soweit ich das beurteilen kann, völlig subjektiv ist. Wenn beispielsweise die tatsächliche Verteilung einer Zufallsvariablen sehr stark oder bimodal ist, werden durch eine Standardvisualisierung oder eine Zusammenfassungsstatistik zum Erkennen von Ausreißern Teile der Verteilung, aus der Sie eine Stichprobe erstellen möchten, fälschlicherweise entfernt. Was ist eine strenge Definition eines Ausreißers, wenn es einen gibt, und wie kann mit Ausreißern umgegangen werden, ohne unangemessene Mengen an Subjektivität in eine Analyse einfließen zu lassen?
outliers
definition
dsimcha
quelle
quelle
rigorous definition of an outlier
wenn Sie in der Lage sind,unreasonable amounts of subjectivity
objektive Weise zu definieren ;-), DankeAntworten:
Solange Ihre Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, können Sie einen Ausreißer rigoros als ein Ereignis definieren, das durch den beobachteten Prozess zu unwahrscheinlich generiert wurde (wenn Sie es für "zu unwahrscheinlich" halten, dass es nicht rigoros ist) Alle Hypothesentests sind).
Dieser Ansatz ist jedoch auf zwei Ebenen problematisch: Es wird davon ausgegangen, dass die Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, und es besteht das Risiko, dass Ausreißer als Datenpunkte betrachtet werden, die von einigen magischen Feen in Ihren Datensatz geschmuggelt wurden.
In Abwesenheit von magischen Datenfehlern stammen alle Daten aus Ihrem Experiment, und daher ist es eigentlich nicht möglich, Ausreißer zu haben, sondern nur seltsame Ergebnisse. Dies kann durch Aufzeichnungsfehler (z. B. ein Haus mit 400.000 Schlafzimmern für 4 Dollar), systematische Messprobleme (der Bildanalysealgorithmus meldet große Flächen, wenn sich das Objekt zu nahe an der Grenze befindet) und experimentelle Probleme (manchmal fallen Kristalle aus der Lösung aus) verursacht werden. die ein sehr hohes Signal geben) oder Merkmale Ihres Systems (eine Zelle kann sich manchmal in drei statt in zwei teilen), aber sie können auch das Ergebnis eines Mechanismus sein, den niemand jemals in Betracht gezogen hat, weil er selten ist und Sie forschen, was bedeutet, dass einige der Dinge, die Sie tun, einfach noch nicht bekannt sind.
Im Idealfall nehmen Sie sich die Zeit, um jeden Ausreißer zu untersuchen, und entfernen ihn erst aus Ihrem Datensatz, wenn Sie verstanden haben, warum er nicht zu Ihrem Modell passt. Dies ist zeitaufwändig und subjektiv, da die Gründe in hohem Maße vom Experiment abhängen. Die Alternative ist jedoch schlimmer: Wenn Sie nicht verstehen, woher die Ausreißer stammen, haben Sie die Wahl, Ihre Ergebnisse von Ausreißern "verfälschen" zu lassen. oder definieren Sie einen "mathematisch rigorosen" Ansatz, um Ihr Unverständnis zu verbergen. Mit anderen Worten, wenn Sie nach "mathematischer Strenge" streben, können Sie wählen, ob Sie keine signifikante Wirkung erzielen oder nicht in den Himmel gelangen möchten.
BEARBEITEN
Wenn Sie nur eine Liste von Zahlen haben, ohne zu wissen, woher sie kommen, können Sie nicht sagen, ob ein Datenpunkt ein Ausreißer ist, da Sie immer von einer Verteilung ausgehen können, bei der alle Daten Lieferanten sind.
quelle
Sie haben Recht, dass das Entfernen von Ausreißern wie eine subjektive Übung aussehen kann, aber das bedeutet nicht, dass es falsch ist. Das zwingende Bedürfnis, für jede Entscheidung in Bezug auf Ihre Datenanalyse immer einen strengen mathematischen Grund zu haben, ist oft nur ein dünner Schleier künstlicher Strenge über der ohnehin subjektiven Übung. Dies gilt insbesondere dann, wenn Sie für jede Situation, auf die Sie stoßen, dieselbe mathematische Rechtfertigung anwenden möchten. (Wenn es kugelsichere, klare mathematische Regeln für alles gäbe, bräuchten Sie keinen Statistiker.)
In Ihrer Long-Tail-Verteilungssituation gibt es beispielsweise keine garantierte Methode, um einfach anhand der Zahlen zu entscheiden, ob Sie eine zugrunde liegende Interessensverteilung mit Ausreißern oder zwei zugrunde liegende Interessensverteilungen haben, bei denen Ausreißer nur Teil einer von ihnen sind. Oder, der Himmel verbietet, nur die tatsächliche Verteilung von Daten.
Je mehr Daten Sie sammeln, desto mehr gelangen Sie in die Regionen mit niedriger Wahrscheinlichkeit einer Verteilung. Wenn Sie 20 Proben sammeln, ist es sehr unwahrscheinlich, dass Sie einen Wert mit einem Z-Score von 3,5 erhalten. Wenn Sie 10.000 Proben sammeln, erhalten Sie höchstwahrscheinlich eine und dies ist ein natürlicher Bestandteil der Verteilung. Wie entscheiden Sie sich angesichts des oben Gesagten, nur weil etwas extrem ist, um es auszuschließen?
Die Auswahl der allgemein besten Analysemethoden ist oft subjektiv. Ob es unangemessen subjektiv ist, hängt von der Erklärung der Entscheidung und vom Ausreißer ab.
quelle
Ich glaube nicht, dass es möglich ist, einen Ausreißer zu definieren, ohne ein Modell des zugrunde liegenden Prozesses anzunehmen, aus dem die Daten hervorgehen. Ohne ein solches Modell haben wir keinen Bezugsrahmen, um zu entscheiden, ob die Daten anomal oder "falsch" sind. Die Definition eines Ausreißers, die ich für nützlich befunden habe, ist, dass ein Ausreißer eine Beobachtung (oder Beobachtungen) ist, die nicht mit einem Modell in Einklang gebracht werden kann, das ansonsten eine gute Leistung erbringt.
quelle
Hier gibt es viele hervorragende Antworten. Ich möchte jedoch darauf hinweisen, dass zwei Fragen miteinander verwechselt werden. Die erste lautet: Was ist ein Ausreißer? Das ist ganz einfach:
Die zweite Frage lautet: Woher weiß / erkenne ich, dass ein Datenpunkt ein Ausreißer ist? Das ist leider sehr schwierig. Die hier gegebenen Antworten (die wirklich sehr gut sind und die ich nicht verbessern kann) werden bei dieser Aufgabe recht hilfreich sein.
quelle
Definition 1: Wie bereits erwähnt, ist ein Ausreißer in einer Gruppe von Daten, die denselben Prozess widerspiegeln (z. B. Prozess A), eine Beobachtung (oder eine Reihe von Beobachtungen), die wahrscheinlich nicht auf Prozess A zurückzuführen ist.
Diese Definition beinhaltet sicherlich eine Schätzung der Wahrscheinlichkeitsfunktion des Prozesses A (daher ein Modell) und die Festlegung der unwahrscheinlichen Bedeutung (dh die Entscheidung, wo aufzuhören ist ...). Diese Definition ist die Wurzel der Antwort, die ich hier gegeben habe . Es handelt sich eher um Ideen zum Testen der Signifikanz oder der Anpassungsgüte von Hypothesen .
Definition 2 Ein Ausreißer ist eine Beobachtung in einer Gruppe von Beobachtungen so dass bei der Modellierung der Beobachtungsgruppe mit einem gegebenen Modell die Genauigkeit höher ist, wenn entfernt und separat behandelt wird (mit einer Mischung, im Sinne dessen, was ich hier erwähne ).G xx G x
Diese Definition beinhaltet ein "gegebenes Modell" und ein Maß für die Genauigkeit. Ich denke, diese Definition ist eher von der praktischen Seite und liegt eher am Ursprung von Ausreißern. In Origin war die Ausreißererkennung ein Werkzeug für zuverlässige Statistiken .
Offensichtlich können diese Definitionen sehr ähnlich sein, wenn Sie verstehen, dass die Berechnung der Wahrscheinlichkeit in der ersten Definition die Modellierung und Berechnung einer Punktzahl umfasst :)
quelle
Ein Ausreißer ist ein Datenpunkt, der mir nach meinem derzeitigen Verständnis des Prozesses, der diese Daten generiert, unangenehm ist.
Ich glaube, diese Definition ist so streng wie möglich.
quelle
Definieren Sie einen Ausreißer als Mitglied dieser minimalen Menge von Elementen, die aus einem Datensatz der Größe n entfernt werden müssen, um sicherzustellen, dass alle (2 ^ n -1) eindeutigen Teilmengen der RUM - Tests mit einem Konfidenzniveau von 95% zu 100% eingehalten werden Daten. Zur Definition des RUM-Tests siehe Karian- und Dudewicz-Text zur Anpassung von Daten an PDFs mit R (September 2010).
quelle
Ausreißer sind nur im frequentistischen Bereich wichtig. Wenn ein einzelner Datenpunkt Ihrem Modell eine Verzerrung hinzufügt, die durch eine von Ihrer Theorie vorgegebene zugrunde liegende Verteilung definiert wird, ist dies ein Ausreißer für dieses Modell. Die Subjektivität liegt in der Tatsache, dass Sie eine andere Menge von Punkten als Ausreißer haben können, wenn Ihre Theorie ein anderes Modell aufstellt.
quelle