Wie soll mit Ausreißern in der linearen Regressionsanalyse umgegangen werden?

73

Häufig erhält ein statistischer Analytiker einen Datensatz und wird gebeten, ein Modell mit einer Technik wie der linearen Regression anzupassen. Sehr häufig wird der Datensatz mit einem Haftungsausschluss in der Art von "Oh ja, wir haben es vermasselt, einige dieser Datenpunkte zu sammeln - tun Sie, was Sie können" versehen.

Diese Situation führt zu Regressionsanpassungen, die stark von Ausreißern beeinflusst werden, bei denen es sich möglicherweise um fehlerhafte Daten handelt. Angesichts der folgenden:

  • Es ist sowohl aus wissenschaftlicher als auch aus moralischer Sicht gefährlich, Daten aus keinem anderen Grund herauszuwerfen, als "die Passform sieht schlecht aus".

  • Im wirklichen Leben stehen die Personen, die die Daten gesammelt haben, häufig nicht zur Verfügung, um Fragen wie "Welche der Punkte haben Sie bei der Erstellung dieses Datensatzes genau durcheinander gebracht?" Zu beantworten.

Welche statistischen Tests oder Faustregeln können als Grundlage für den Ausschluss von Ausreißern in der linearen Regressionsanalyse verwendet werden?

Gibt es spezielle Überlegungen zur multilinearen Regression?

Sharpie
quelle
Verwandte: mögliche Betrug davon: stats.stackexchange.com/questions/37865/… | R howto: stats.stackexchange.com/questions/53227/…
Ciro Santilli am

Antworten:

33

Anstatt Ausreißer auszuschließen, können Sie eine zuverlässige Regressionsmethode verwenden. In R kann beispielsweise die rlm()Funktion aus dem MASS-Paket anstelle der lm()Funktion verwendet werden. Die Schätzmethode kann so eingestellt werden, dass sie für Ausreißer mehr oder weniger robust ist.

Rob Hyndman
quelle
Wenn ich die Funktion rlm () verwende, sehe ich, dass die Koeffizienten und ihre t-Tests erzeugt werden. Aber wie kann ich von hier aus den f-Test erhalten, R-Quadrat-Werte? Ich nehme an, ich kann diese f-Test- und R-Quadrat-Werte nicht einfach aus den einfachen "lm" -Zusammenfassungsergebnissen ableiten, wenn ich richtig bin.
Eric
1
Für eine robuste Regression sind die Annahmen hinter einem F-Test nicht mehr erfüllt und R ^ 2 kann auf verschiedene Arten definiert werden, die nicht mehr äquivalent sind. Unter stats.idre.ucla.edu/stata/faq/… finden Sie einige Diskussionen zu diesem Thema für Stata.
Rob Hyndman
Siehe auch stats.stackexchange.com/a/68367/159
Rob Hyndman
Aber ich finde den Befehl f.robftest aus dem sfsmisc-Paket, der das f-Testergebnis ausgibt. Kann ich dieses Ergebnis verwenden, um die f-Test-Statistik für rlm zu definieren? Außerdem scheine ich R square zu erhalten, indem ich einfach die Werte in die mathematische Formel R square eingebe, wie 1 - sum (Residuen (rlm (y ~ x)) ^ 2) / sum ((y-mean (y)) ^ 2) . Damit t-Test-Werte die Signifikanz der Koeffizienten überprüfen, erhalte ich die t-Test-Werte aus der Zusammenfassung (rlm (y ~ x)), die ich mit den t-Werten von etwa 95% Konfidenzniveau vergleiche. Kann ich diese Methoden anwenden?
Eric
22

Manchmal sind Ausreißer schlechte Daten und sollten ausgeschlossen werden, z. B. Tippfehler. Manchmal sind es Wayne Gretzky oder Michael Jordan, und sie sollten behalten werden.

Ausreißererkennungsmethoden umfassen:

Univariate -> Boxplot. Außerhalb des 1,5-fachen Interquartilbereichs liegt ein Ausreißer vor.

Bivariate -> Streudiagramm mit Vertrauensellipse. Außerhalb von beispielsweise 95% ist die Vertrauensellipse ein Ausreißer.

Multivariate -> Mahalanobis D2 Entfernung

Markieren Sie diese Beobachtungen als Ausreißer.

Führen Sie eine logistische Regression durch (bei Y = IsOutlier), um festzustellen, ob es systematische Muster gibt.

Entfernen Sie diejenigen, von denen Sie nachweisen können, dass sie für keine Teilpopulation repräsentativ sind.

Neil McGuigan
quelle
Und wenn Sie immer noch Ausreißer haben, sollten Sie ein anderes Modell als linear verwenden. Wenn Sie beispielsweise ein Modell verwenden, das dem Potenzgesetz ähnelt, ist Michael Jordan kein Ausreißer mehr (in Bezug auf die Fähigkeit des Modells, ihm gerecht zu werden).
Drevicko
1
Stimmen Sie mit den meisten Aussagen überein, aber ich möchte die zusätzliche Vorsicht hinzufügen, dass " außerhalb des 1,5-fachen Interquartilbereichs ein Ausreißer ist " eine Konvention , keine Regel mit theoretischer Grundlage. Es sollte nicht als Begründung für den Ausschluss von Datenpunkten verwendet werden.
mkt
20

Ich denke, es gibt etwas zu sagen, um nur die Ausreißer auszuschließen. Eine Regressionslinie soll die Daten zusammenfassen. Aufgrund der Hebelwirkung kann es vorkommen, dass 1% Ihrer Datenpunkte die Steigung um 50% beeinflussen.

Es ist nur aus moralischer und wissenschaftlicher Sicht gefährlich, wenn Sie niemandem sagen, dass Sie die Ausreißer ausgeschlossen haben. Solange Sie darauf hinweisen, können Sie sagen:

"Diese Regressionsgerade passt für die meisten Daten ziemlich gut. 1% der Zeit wird ein Wert folgen, der nicht diesem Trend entspricht, aber hey, es ist eine verrückte Welt, kein System ist perfekt."

Chris Beeley
quelle
1
"hey, es ist eine verrückte Welt, kein System ist perfekt" +1 für das mein Freund! :)
bartektartanus
1
Denken Sie aber auch an andere Modelle. Die Welt ist voll von entfernten "Ausreißern", die echte Daten sind, was dazu führt, dass etwas wirklich Wichtiges nicht vorhergesagt werden kann. Viele natürliche Prozesse haben ein kraftgesetzähnliches Verhalten mit seltenen Extremereignissen. Lineare Modelle scheinen zu solchen Daten zu passen (wenn auch nicht zu gut). Wenn Sie jedoch eines dieser Modelle verwenden und die "Ausreißer" löschen, müssen Sie die extremen Ereignisse auslassen, über die Sie normalerweise Bescheid wissen müssen!
Drevicko
10

Sharpie,

Wenn Sie Ihre Frage wörtlich nehmen, würde ich argumentieren, dass es keine statistischen Tests gibt oder dass Faustregeln als Grundlage für den Ausschluss von Ausreißern in der linearen Regressionsanalyse verwendet werden können (anstatt zu bestimmen, ob eine bestimmte Beobachtung ein Ausreißer ist oder nicht). Dies muss aus Fachkenntnissen stammen.

Ich denke, der beste Anfang ist die Frage, ob die Ausreißer überhaupt Sinn machen, insbesondere angesichts der anderen Variablen, die Sie gesammelt haben. Ist es zum Beispiel wirklich vernünftig, dass Sie eine 600-Pfund-Frau in Ihrer Studie haben, die aus verschiedenen Kliniken für Sportverletzungen rekrutiert wurde? Oder ist es nicht seltsam, dass eine Person 55 Jahre oder Berufserfahrung aufführt, wenn sie erst 60 Jahre alt ist? Und so weiter. Hoffentlich haben Sie dann eine vernünftige Grundlage, um sie entweder auszuschließen oder die Datencompiler zu veranlassen, die Datensätze für Sie zu überprüfen.

Ich würde auch robuste Regressionsmethoden und die transparente Berichterstattung über abgelehnte Beobachtungen vorschlagen, wie von Rob bzw. Chris vorgeschlagen.

Hoffe das hilft, Brenden

Brenden
quelle
5

Es gibt zwei statistische Distanzmaße, die speziell dazu dienen, Ausreißer zu erkennen und dann zu prüfen, ob solche Ausreißer aus Ihrer linearen Regression entfernt werden sollten.

Der erste ist Cooks Entfernung. Eine ziemlich gute Erklärung finden Sie bei Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance .

Je größer der Abstand des Kochs ist, desto einflussreicher (Einfluss auf den Regressionskoeffizienten) ist die Beobachtung. Der typische Grenzwert für das Entfernen der Beobachtung ist ein Cook-Abstand = 4 / n (n ist die Stichprobengröße).

Das zweite ist DFFITS, das auch von Wikipedia abgedeckt wird: http://en.wikipedia.org/wiki/DFFITS . Der typische Grenzwert zum Entfernen einer Beobachtung ist ein DFFITS-Wert von 2 mal Quadratmeter (k / n), wobei k die Anzahl der Variablen und n die Stichprobengröße ist.

Beide Messungen ergeben normalerweise ähnliche Ergebnisse, die zu einer ähnlichen Beobachtungsauswahl führen.

Sympa
quelle
3

Müll rein, Müll raus ....

Um den vollen Nutzen der linearen Regression zu erzielen, muss das Rauschen einer Normalverteilung folgen. Idealerweise haben Sie meistens Daten und ein wenig Rauschen ... nicht meistens Rauschen und ein wenig Daten. Sie können die Normalität von Residuen nach der linearen Anpassung testen, indem Sie sich die Residuen ansehen. Sie können Eingabedaten auch vor der linearen Anpassung filtern, um offensichtliche, offensichtliche Fehler zu erkennen.

Hier sind einige Arten von Rauschen in Garbage-Input-Daten, die normalerweise nicht zu einer Normalverteilung passen:

  • Fehlende oder mit handeingegebenen Daten hinzugefügte Ziffern (um den Faktor 10 oder mehr)
  • Falsche oder falsch umgerechnete Einheiten (Gramm vs Kilo vs Pfund; Meter, Fuß, Meilen, km), möglicherweise durch Zusammenführen mehrerer Datensätze (Hinweis: Der Mars-Orbiter wurde auf diese Weise als verloren angesehen, sodass selbst NASA-Raketenwissenschaftler dies tun können Fehler)
  • Verwenden Sie Codes wie 0, -1, -99999 oder 99999, um nicht numerische Werte wie "nicht zutreffend" oder "Spalte nicht verfügbar" zu bezeichnen, und geben Sie diese zusammen mit gültigen Daten in ein lineares Modell ein

Das Schreiben einer Spezifikation für "gültige Daten" für jede Spalte kann Ihnen dabei helfen, ungültige Daten zu kennzeichnen. Beispielsweise sollte die Körpergröße einer Person in cm in einem Bereich von beispielsweise 100 bis 300 cm liegen. Wenn Sie 1,8 für Höhe finden, die ein Tippfehler ist, und wenn Sie davon ausgehen können, dass es 1,8 m war, und ändern Sie es auf 180 - ich würde sagen, es ist normalerweise sicherer, es wegzuwerfen und so viel wie möglich von der Filterung zu dokumentieren.

Paul
quelle
1

Für eine lineare Regression können Sie einen wiederholten geraden Mittelwert verwenden.

babelproofreader
quelle
0

Als Grundlage für den Ausschluss zu verwendende statistische Tests: - standardisierte Residuen - Hebelstatistik - Cook-Distanz, eine Kombination aus beiden.

Erfahrungsgemäß sollte der Ausschluss auf Fälle falscher Dateneingabe beschränkt sein. Das Neugewichten von Ausreißern im linearen Regressionsmodell ist eine sehr gute Kompromissmethode. Die Anwendung in R wird von Rob angeboten. Ein gutes Beispiel ist hier: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Wenn ein Ausschluss erforderlich ist, bezieht sich „eine Faustregel“ auf die DfBeta-Statistik (Änderungen in der Schätzung, wenn der Ausreißer gelöscht wird). Wenn der absolute Wert der DfBeta-Statistik 2 / sqrt (n) überschreitet, bedeutet dies, dass die DfBeta-Statistik entfernt wird der Ausreißer.

mkrasmus
quelle