Ich führe mehrere Regressionsanalysen durch und bin nicht sicher, ob Ausreißer in meinen Daten gelöscht werden sollen. Die Daten, um die ich besorgt bin, werden in den SPSS-Boxplots als "Kreise" angezeigt, es gibt jedoch keine Sternchen (weshalb ich denke, dass sie nicht "so schlecht" sind). Die Fälle, um die ich besorgt bin, erscheinen in der Ausgabe in der Tabelle "Fallweise Diagnose". Sollte ich diese Fälle daher löschen?
regression
outliers
Anon
quelle
quelle
Antworten:
Das Markieren von Ausreißern ist kein Entscheidungsgrund (oder muss es auf keinen Fall sein). Bei einem statistischen Modell haben Ausreißer eine genaue, objektive Definition: Es handelt sich um Beobachtungen, die nicht dem Muster der meisten Daten folgen . Solche Beobachtungen müssen zu Beginn einer Analyse einfach deshalb auseinandergesetzt werden, weil ihre Entfernung von der Masse der Daten sicherstellt, dass sie bei jedem multivariablen Modell mit maximaler Wahrscheinlichkeit (oder in der Tat bei jeder anderen Funktion mit konvexem Verlust) einen unverhältnismäßigen Einfluss ausüben.
Es ist wichtig , dass die multivariable Ausreißer darauf hinzuweisen, s einfach nicht zuverlässig Residuen von einem kleinsten Fehlerquadrat (oder jedem anderen Modell von ML, oder jeder anderen konvexen Verlustfunktion geschätzt) detektiert werden kann. Einfach ausgedrückt, können multivariable Ausreißer nur anhand ihrer Residuen aus einem Modell, das mit einem Schätzverfahren angepasst wurde, das nicht von ihnen beeinflusst werden kann, zuverlässig erkannt werden.
Die Überzeugung, dass Ausreißer in den Residuen einer klassischen Anpassung von Bedeutung sein werden, wird irgendwo dort oben mit anderen schwer zu entlarvenden statistischen Nein-Nein-Werten wie der Interpretation von p-Werten als Beweismaß oder dem Rückschluss auf eine Population aus einer voreingenommenen Stichprobe verglichen. Mit der Ausnahme, dass dieser wahrscheinlich viel älter ist: Gauß selbst empfahl die Verwendung eines robusten Schätzers wie dem Median und dem Mad (anstelle des klassischen Mittelwerts und der Standardabweichungen), um die Parameter einer Normalverteilung aus verrauschten Beobachtungen zu schätzen (auch wenn sie noch laufen) soweit der Konsistenzfaktor des Verrückten abgeleitet wird (1).
Um ein einfaches visuelles Beispiel basierend auf realen Daten zu geben, betrachten Sie die berüchtigten CYG-Sterndaten . Die rote Linie zeigt hier die Anpassung des kleinsten Quadrats, die blaue Linie die Anpassung, die mit einer robusten linearen Regressionsanpassung erhalten wurde. Die robuste Anpassung ist hier nämlich die FastLTS (2) -Anpassung, eine Alternative zur LS-Anpassung, mit der Ausreißer erkannt werden können (da ein Schätzverfahren verwendet wird, mit dem sichergestellt wird, dass der Einfluss einer Beobachtung auf den geschätzten Koeffizienten begrenzt wird). Der zu reproduzierende R-Code lautet:
Interessanterweise haben die 4 äußeren Beobachtungen auf der linken Seite nicht einmal die größten Residuen in Bezug auf die LS - Anpassung und das QQ - Diagramm der Residuen der LS - Anpassung (oder eines der daraus abgeleiteten Diagnosewerkzeuge wie die Cook - Entfernung oder die dfbeta) zeigen keine von ihnen als problematisch. Dies ist eigentlich die Norm: Es sind nicht mehr als zwei Ausreißer erforderlich (unabhängig von der Stichprobengröße), um die LS-Schätzungen so zu ziehen, dass die Ausreißer in einem Restplot nicht auffallen würden. Dies wird als Maskierungseffekt bezeichnetund es ist gut dokumentiert. Vielleicht ist das Einzige, was am CYGstars-Datensatz auffällt, dass er bivariat ist (daher können wir das Ergebnis des robusten Sitzes visuell überprüfen) und dass es tatsächlich eine gute Erklärung dafür gibt, warum diese vier Beobachtungen auf der linken Seite so abnormal sind.
Dies ist übrigens die Ausnahme mehr als die Regel: Außer in kleinen Pilotstudien mit kleinen Stichproben und wenigen Variablen und wenn die Person, die die statistische Analyse durchführt, auch in den Datenerfassungsprozess involviert war, habe ich noch nie einen Fall erlebt, in dem vorhergehende Überzeugungen darüber bestanden Die Identität der Ausreißer stimmte tatsächlich. Dies ist übrigens recht einfach zu überprüfen. Unabhängig davon, ob Ausreißer mithilfe eines Ausreißererkennungsalgorithmus oder des Darmgefühls des Forschers identifiziert wurden, handelt es sich bei Ausreißern definitionsgemäß um Beobachtungen, die eine abnormale Hebelwirkung (oder „Zugkraft“) gegenüber den aus einer LS-Anpassung erhaltenen Koeffizienten aufweisen. Mit anderen Worten, Ausreißer sind Beobachtungen, deren Entfernung aus der Probe den LS-Fit stark beeinflussen sollte.
Auch wenn ich das noch nie persönlich erlebt habe, gibt es in der Literatur einige gut dokumentierte Fälle, in denen Beobachtungen, die von einem Ausreißererkennungsalgorithmus als Ausreißer gekennzeichnet wurden, als grobe Fehler oder durch einen anderen Prozess hervorgerufen wurden. In jedem Fall ist es weder wissenschaftlich gerechtfertigt noch sinnvoll, Ausreißer nur dann zu entfernen, wenn sie irgendwie verstanden oder erklärt werden können. Wenn eine kleine Ansammlung von Beobachtungen so weit vom Hauptteil der Daten entfernt ist, dass sie die Ergebnisse eines statistischen Verfahrens im Alleingang abrufen kann, ist es ratsam (und ich könnte natürlich hinzufügen), sie unabhängig davon zu behandeln, ob oder Nicht diese Datenpunkte sind zufällig auch aus anderen Gründen verdächtig.
(1): siehe Stephen M. Stigler, Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900.
(2): Berechnung der LTS-Regression für große Datenmengen (2006) PJ Rousseeuw, K. van Driessen.
(3): Robuste multivariate Hochleistungsverfahren (2008). Hubert M., Rousseeuw PJ und Van Aelst S. Quelle: Statist. Sci. Band 23, 92-119.
quelle
Im Allgemeinen bin ich vorsichtig, "Ausreißer" zu entfernen. Die Regressionsanalyse kann korrekt angewendet werden, wenn nicht normalverteilte Fehler, Fehler mit Heteroskedastizität oder Werte der Prädiktoren / unabhängigen Variablen vorliegen, die vom Rest "weit entfernt" sind. Das wahre Problem bei Ausreißern ist, dass sie nicht dem linearen Modell folgen, dem jeder andere Datenpunkt folgt. Woher wissen Sie, ob dies der Fall ist? Das tust du nicht.
Wenn überhaupt, möchten Sie nicht nach Werten Ihrer Variablen suchen, die Ausreißer sind. Stattdessen möchten Sie nach Werten Ihrer Residuen suchen , die Ausreißer sind. Schauen Sie sich diese Datenpunkte an. Sind ihre Variablen korrekt aufgezeichnet? Gibt es einen Grund, warum sie nicht dem gleichen Modell wie Ihre übrigen Daten folgen?
Natürlich kann der Grund, warum diese Beobachtungen als Ausreißer erscheinen (gemäß der Restdiagnose), darin liegen, dass Ihr Modell falsch ist. Ich habe einen Professor, der gerne sagte, wenn wir Ausreißer wegwerfen, würden wir immer noch glauben, dass sich die Planeten in perfekten Kreisen um die Sonne drehen. Kepler hätte den Mars wegwerfen können, und die Geschichte über die Umlaufbahn hätte ziemlich gut ausgesehen. Mars lieferte die entscheidende Erkenntnis, dass dieses Modell falsch war, und er hätte dieses Ergebnis verpasst, wenn er diesen Planeten ignoriert hätte.
Sie haben erwähnt, dass das Entfernen der Ausreißer Ihre Ergebnisse nicht sehr verändert. Dies liegt entweder daran, dass Sie nur eine sehr kleine Anzahl von Beobachtungen in Bezug auf Ihre Stichprobe entfernt haben, oder sie stimmen mit Ihrem Modell einigermaßen überein. Dies könnte darauf hindeuten, dass die Variablen selbst möglicherweise anders aussehen als die anderen, ihre Residuen jedoch nicht so hervorragend sind. Ich würde sie belassen und nicht versuchen, meine Entscheidung zu rechtfertigen, einige Punkte für meine Kritiker zu streichen.
quelle
+1 an @Charlie und @PeterFlom; Sie bekommen dort gute Informationen. Vielleicht kann ich hier einen kleinen Beitrag leisten, indem ich die Prämisse der Frage in Frage stelle. Ein Boxplot wird in der Regel (Software kann variieren, und ich weiß nicht genau, was SPSS tut) mehr als das 1,5-fache des Interquartilbereichs über (unter) dem dritten (ersten) Quartil als "Ausreißer" anzeigen. Wir können jedoch fragen, wie oft wir damit rechnen sollen, mindestens einen solchen Punkt zu finden, wenn wir wissen, dass alle Punkte aus derselben Verteilung stammen. Eine einfache Simulation kann uns helfen, diese Frage zu beantworten:
Dies zeigt, dass solche Punkte bei Stichproben der Größe 100 häufig auftreten (> 50% der Fälle), auch wenn nichts falsch ist. Wie der letzte Satz andeutet, hängt die Wahrscheinlichkeit, über die Boxplot-Strategie einen falschen Ausreißer zu finden, von der Stichprobengröße ab:
Es gibt andere Strategien zum automatischen Identifizieren von Ausreißern, aber jede solche Methode wird manchmal gültige Punkte als "Ausreißer" und manchmal echte Ausreißer als "gültige Punkte" falsch identifizieren. (Sie können sich diese Fehler als Fehler des Typs I und II vorstellen .) Ich denke bei diesem Thema (für was es sich lohnt) an die Auswirkungen des Einschlusses / Ausschlusses der fraglichen Punkte. Wenn es sich bei Ihrem Ziel um eine Vorhersage handelt, können Sie mithilfe der Kreuzvalidierung bestimmen, ob / wie viel einschließlich der fraglichen Punkte den quadratischen mittleren Vorhersagefehler erhöht . Wenn Ihr Ziel die Erklärung ist, können Sie sich dfBeta ansehen(Sehen Sie sich an, wie stark sich die Beta-Schätzungen Ihres Modells ändern, je nachdem, ob die fraglichen Punkte enthalten sind oder nicht). Eine andere (wohl die beste) Perspektive besteht darin, nicht zu entscheiden, ob fehlerhafte Punkte verworfen werden sollen, sondern stattdessen robuste Analysen zu verwenden.
quelle
Sie sollten sich zunächst die Diagramme der Residuen ansehen: Folgen sie (ungefähr) einer Normalverteilung? Zeigen sie Anzeichen von Heteroskedastizität? Schauen Sie sich auch andere Diagramme an (ich verwende kein SPSS, kann also nicht genau sagen, wie dies in diesem Programm zu tun ist, noch welche Boxplots Sie sich ansehen; es ist jedoch schwer vorstellbar, dass Sternchen "nicht so schlecht" bedeuten, was sie wahrscheinlich bedeuten dass dies nach einem bestimmten Kriterium höchst ungewöhnliche Punkte sind).
Wenn Sie dann Ausreißer haben, schauen Sie sich diese an und versuchen Sie herauszufinden, warum.
Dann können Sie die Regression mit und ohne Ausreißer versuchen. Wenn die Ergebnisse ähnlich sind, ist das Leben gut. Berichten Sie mit einer Fußnote über die vollständigen Ergebnisse. Wenn nicht ähnlich, sollten Sie beide Regressionen erklären.
quelle