Häufig erhält ein statistischer Analytiker einen Datensatz und wird gebeten, ein Modell mit einer Technik wie der linearen Regression anzupassen. Sehr häufig wird der Datensatz mit einem Haftungsausschluss in der Art von "Oh ja, wir haben es vermasselt, einige dieser Datenpunkte zu sammeln - tun Sie, was Sie können" versehen.
Diese Situation führt zu Regressionsanpassungen, die stark von Ausreißern beeinflusst werden, bei denen es sich möglicherweise um fehlerhafte Daten handelt. Angesichts der folgenden:
Es ist sowohl aus wissenschaftlicher als auch aus moralischer Sicht gefährlich, Daten aus keinem anderen Grund herauszuwerfen, als "die Passform sieht schlecht aus".
Im wirklichen Leben stehen die Personen, die die Daten gesammelt haben, häufig nicht zur Verfügung, um Fragen wie "Welche der Punkte haben Sie bei der Erstellung dieses Datensatzes genau durcheinander gebracht?" Zu beantworten.
Welche statistischen Tests oder Faustregeln können als Grundlage für den Ausschluss von Ausreißern in der linearen Regressionsanalyse verwendet werden?
Gibt es spezielle Überlegungen zur multilinearen Regression?
quelle
Antworten:
Anstatt Ausreißer auszuschließen, können Sie eine zuverlässige Regressionsmethode verwenden. In R kann beispielsweise die
rlm()
Funktion aus dem MASS-Paket anstelle derlm()
Funktion verwendet werden. Die Schätzmethode kann so eingestellt werden, dass sie für Ausreißer mehr oder weniger robust ist.quelle
Manchmal sind Ausreißer schlechte Daten und sollten ausgeschlossen werden, z. B. Tippfehler. Manchmal sind es Wayne Gretzky oder Michael Jordan, und sie sollten behalten werden.
Ausreißererkennungsmethoden umfassen:
Univariate -> Boxplot. Außerhalb des 1,5-fachen Interquartilbereichs liegt ein Ausreißer vor.
Bivariate -> Streudiagramm mit Vertrauensellipse. Außerhalb von beispielsweise 95% ist die Vertrauensellipse ein Ausreißer.
Multivariate -> Mahalanobis D2 Entfernung
Markieren Sie diese Beobachtungen als Ausreißer.
Führen Sie eine logistische Regression durch (bei Y = IsOutlier), um festzustellen, ob es systematische Muster gibt.
Entfernen Sie diejenigen, von denen Sie nachweisen können, dass sie für keine Teilpopulation repräsentativ sind.
quelle
Ich denke, es gibt etwas zu sagen, um nur die Ausreißer auszuschließen. Eine Regressionslinie soll die Daten zusammenfassen. Aufgrund der Hebelwirkung kann es vorkommen, dass 1% Ihrer Datenpunkte die Steigung um 50% beeinflussen.
Es ist nur aus moralischer und wissenschaftlicher Sicht gefährlich, wenn Sie niemandem sagen, dass Sie die Ausreißer ausgeschlossen haben. Solange Sie darauf hinweisen, können Sie sagen:
"Diese Regressionsgerade passt für die meisten Daten ziemlich gut. 1% der Zeit wird ein Wert folgen, der nicht diesem Trend entspricht, aber hey, es ist eine verrückte Welt, kein System ist perfekt."
quelle
Sharpie,
Wenn Sie Ihre Frage wörtlich nehmen, würde ich argumentieren, dass es keine statistischen Tests gibt oder dass Faustregeln als Grundlage für den Ausschluss von Ausreißern in der linearen Regressionsanalyse verwendet werden können (anstatt zu bestimmen, ob eine bestimmte Beobachtung ein Ausreißer ist oder nicht). Dies muss aus Fachkenntnissen stammen.
Ich denke, der beste Anfang ist die Frage, ob die Ausreißer überhaupt Sinn machen, insbesondere angesichts der anderen Variablen, die Sie gesammelt haben. Ist es zum Beispiel wirklich vernünftig, dass Sie eine 600-Pfund-Frau in Ihrer Studie haben, die aus verschiedenen Kliniken für Sportverletzungen rekrutiert wurde? Oder ist es nicht seltsam, dass eine Person 55 Jahre oder Berufserfahrung aufführt, wenn sie erst 60 Jahre alt ist? Und so weiter. Hoffentlich haben Sie dann eine vernünftige Grundlage, um sie entweder auszuschließen oder die Datencompiler zu veranlassen, die Datensätze für Sie zu überprüfen.
Ich würde auch robuste Regressionsmethoden und die transparente Berichterstattung über abgelehnte Beobachtungen vorschlagen, wie von Rob bzw. Chris vorgeschlagen.
Hoffe das hilft, Brenden
quelle
Ich habe eine Methode zum Identifizieren von Ausreißern in der nichtlinearen Regression veröffentlicht. Sie kann auch beim Anpassen eines linearen Modells verwendet werden.
HJ Motulsky und RE Brown. Ausreißer beim Anpassen von Daten mit nichtlinearer Regression erkennen - eine neue Methode, die auf robuster nichtlinearer Regression und der Rate falscher Entdeckungen basiert . BMC Bioinformatics 2006, 7: 123
quelle
Es gibt zwei statistische Distanzmaße, die speziell dazu dienen, Ausreißer zu erkennen und dann zu prüfen, ob solche Ausreißer aus Ihrer linearen Regression entfernt werden sollten.
Der erste ist Cooks Entfernung. Eine ziemlich gute Erklärung finden Sie bei Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance .
Je größer der Abstand des Kochs ist, desto einflussreicher (Einfluss auf den Regressionskoeffizienten) ist die Beobachtung. Der typische Grenzwert für das Entfernen der Beobachtung ist ein Cook-Abstand = 4 / n (n ist die Stichprobengröße).
Das zweite ist DFFITS, das auch von Wikipedia abgedeckt wird: http://en.wikipedia.org/wiki/DFFITS . Der typische Grenzwert zum Entfernen einer Beobachtung ist ein DFFITS-Wert von 2 mal Quadratmeter (k / n), wobei k die Anzahl der Variablen und n die Stichprobengröße ist.
Beide Messungen ergeben normalerweise ähnliche Ergebnisse, die zu einer ähnlichen Beobachtungsauswahl führen.
quelle
Müll rein, Müll raus ....
Um den vollen Nutzen der linearen Regression zu erzielen, muss das Rauschen einer Normalverteilung folgen. Idealerweise haben Sie meistens Daten und ein wenig Rauschen ... nicht meistens Rauschen und ein wenig Daten. Sie können die Normalität von Residuen nach der linearen Anpassung testen, indem Sie sich die Residuen ansehen. Sie können Eingabedaten auch vor der linearen Anpassung filtern, um offensichtliche, offensichtliche Fehler zu erkennen.
Hier sind einige Arten von Rauschen in Garbage-Input-Daten, die normalerweise nicht zu einer Normalverteilung passen:
Das Schreiben einer Spezifikation für "gültige Daten" für jede Spalte kann Ihnen dabei helfen, ungültige Daten zu kennzeichnen. Beispielsweise sollte die Körpergröße einer Person in cm in einem Bereich von beispielsweise 100 bis 300 cm liegen. Wenn Sie 1,8 für Höhe finden, die ein Tippfehler ist, und wenn Sie davon ausgehen können, dass es 1,8 m war, und ändern Sie es auf 180 - ich würde sagen, es ist normalerweise sicherer, es wegzuwerfen und so viel wie möglich von der Filterung zu dokumentieren.
quelle
Für eine lineare Regression können Sie einen wiederholten geraden Mittelwert verwenden.
quelle
Als Grundlage für den Ausschluss zu verwendende statistische Tests: - standardisierte Residuen - Hebelstatistik - Cook-Distanz, eine Kombination aus beiden.
Erfahrungsgemäß sollte der Ausschluss auf Fälle falscher Dateneingabe beschränkt sein. Das Neugewichten von Ausreißern im linearen Regressionsmodell ist eine sehr gute Kompromissmethode. Die Anwendung in R wird von Rob angeboten. Ein gutes Beispiel ist hier: http://www.ats.ucla.edu/stat/r/dae/rreg.htm
Wenn ein Ausschluss erforderlich ist, bezieht sich „eine Faustregel“ auf die DfBeta-Statistik (Änderungen in der Schätzung, wenn der Ausreißer gelöscht wird). Wenn der absolute Wert der DfBeta-Statistik 2 / sqrt (n) überschreitet, bedeutet dies, dass die DfBeta-Statistik entfernt wird der Ausreißer.
quelle