Ob Fälle, die von statistischer Software als Ausreißer gekennzeichnet wurden, gelöscht werden sollen, wenn mehrere Regressionen durchgeführt werden?

23

Ich führe mehrere Regressionsanalysen durch und bin nicht sicher, ob Ausreißer in meinen Daten gelöscht werden sollen. Die Daten, um die ich besorgt bin, werden in den SPSS-Boxplots als "Kreise" angezeigt, es gibt jedoch keine Sternchen (weshalb ich denke, dass sie nicht "so schlecht" sind). Die Fälle, um die ich besorgt bin, erscheinen in der Ausgabe in der Tabelle "Fallweise Diagnose". Sollte ich diese Fälle daher löschen?

Anon
quelle
Vielen Dank Charlie und Epigrad. Könnten Sie bitte vorschlagen, welches Diagramm in SPSS ich sehe, um zu beurteilen, ob die Residuen Ausreißer enthalten? Das Streudiagramm sieht ziemlich chaotisch aus! Ich habe kein Problem mit den Daten als solchen (da sie nicht falsch eingegeben wurden). Ich denke nur, dass einige meiner Teilnehmer auf einigen meiner Skalen viel höhere Punktzahlen hatten, dh weil sie viel sozialer besorgt waren der Rest der Probe.
Anon
3
Sie sollten den vorhergesagten Wert von y (den Wert, der gemäß dem von Ihnen geschätzten Modell angegeben wurde) auf der x-Achse und die Residuen auf der y-Achse zeichnen. Anstelle des vorhergesagten Werts von y können Sie eine Ihrer Prädiktoren / unabhängigen Variablen auf die x-Achse setzen. Sie können mehrere Diagramme mit jeweils einem anderen Prädiktor auf der x-Achse erstellen, um festzustellen, welcher x-Wert zum Ausreißerverhalten führt. Auch hier würde ich vor dem Entfernen von Ausreißern warnen. Analysieren Sie stattdessen, warum der Ausreißer auftritt.
Charlie
1
In Anlehnung an Charlies Aussage ist eher das "Warum" von Bedeutung als das "Wenn", und auch ich würde davor warnen, sie zu entfernen. Ich bin nicht mit SPSS vertraut, aber mit welchen Funktionen Sie die Regression ausgeführt haben, sollten Sie auch eine Darstellung von Residuen erhalten, oder zumindest deren Wert, den Sie für die Darstellung verwenden können, die Charlie vorschlägt.
Fomite
@Anon Ich habe deine beiden Accounts zusammengelegt. Bitte registrieren Sie sich, damit Sie Ihre Frage aktualisieren und / oder kommentieren können.
Chl
3
@ user603 Nein, du liest mich nicht richtig. "Ausreißer" hat nichts zu bedeuten - insbesondere, wenn es durch ein automatisches Verfahren in einer Statistiksoftware gekennzeichnet ist. Genauso viele Beispiele für die wichtigen Ergebnisse einer Studie finden sich in den "Ausreißern". Wann immer Sie Daten löschen, sollte dies einen Grund haben. "Sie sind unbequem" ist kein Grund.
Fomite

Antworten:

25

Das Markieren von Ausreißern ist kein Entscheidungsgrund (oder muss es auf keinen Fall sein). Bei einem statistischen Modell haben Ausreißer eine genaue, objektive Definition: Es handelt sich um Beobachtungen, die nicht dem Muster der meisten Daten folgen . Solche Beobachtungen müssen zu Beginn einer Analyse einfach deshalb auseinandergesetzt werden, weil ihre Entfernung von der Masse der Daten sicherstellt, dass sie bei jedem multivariablen Modell mit maximaler Wahrscheinlichkeit (oder in der Tat bei jeder anderen Funktion mit konvexem Verlust) einen unverhältnismäßigen Einfluss ausüben.

Es ist wichtig , dass die multivariable Ausreißer darauf hinzuweisen, s einfach nicht zuverlässig Residuen von einem kleinsten Fehlerquadrat (oder jedem anderen Modell von ML, oder jeder anderen konvexen Verlustfunktion geschätzt) detektiert werden kann. Einfach ausgedrückt, können multivariable Ausreißer nur anhand ihrer Residuen aus einem Modell, das mit einem Schätzverfahren angepasst wurde, das nicht von ihnen beeinflusst werden kann, zuverlässig erkannt werden.

Die Überzeugung, dass Ausreißer in den Residuen einer klassischen Anpassung von Bedeutung sein werden, wird irgendwo dort oben mit anderen schwer zu entlarvenden statistischen Nein-Nein-Werten wie der Interpretation von p-Werten als Beweismaß oder dem Rückschluss auf eine Population aus einer voreingenommenen Stichprobe verglichen. Mit der Ausnahme, dass dieser wahrscheinlich viel älter ist: Gauß selbst empfahl die Verwendung eines robusten Schätzers wie dem Median und dem Mad (anstelle des klassischen Mittelwerts und der Standardabweichungen), um die Parameter einer Normalverteilung aus verrauschten Beobachtungen zu schätzen (auch wenn sie noch laufen) soweit der Konsistenzfaktor des Verrückten abgeleitet wird (1).

Um ein einfaches visuelles Beispiel basierend auf realen Daten zu geben, betrachten Sie die berüchtigten CYG-Sterndaten . Die rote Linie zeigt hier die Anpassung des kleinsten Quadrats, die blaue Linie die Anpassung, die mit einer robusten linearen Regressionsanpassung erhalten wurde. Die robuste Anpassung ist hier nämlich die FastLTS (2) -Anpassung, eine Alternative zur LS-Anpassung, mit der Ausreißer erkannt werden können (da ein Schätzverfahren verwendet wird, mit dem sichergestellt wird, dass der Einfluss einer Beobachtung auf den geschätzten Koeffizienten begrenzt wird). Der zu reproduzierende R-Code lautet:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

starsCYG-Daten

Interessanterweise haben die 4 äußeren Beobachtungen auf der linken Seite nicht einmal die größten Residuen in Bezug auf die LS - Anpassung und das QQ - Diagramm der Residuen der LS - Anpassung (oder eines der daraus abgeleiteten Diagnosewerkzeuge wie die Cook - Entfernung oder die dfbeta) zeigen keine von ihnen als problematisch. Dies ist eigentlich die Norm: Es sind nicht mehr als zwei Ausreißer erforderlich (unabhängig von der Stichprobengröße), um die LS-Schätzungen so zu ziehen, dass die Ausreißer in einem Restplot nicht auffallen würden. Dies wird als Maskierungseffekt bezeichnetund es ist gut dokumentiert. Vielleicht ist das Einzige, was am CYGstars-Datensatz auffällt, dass er bivariat ist (daher können wir das Ergebnis des robusten Sitzes visuell überprüfen) und dass es tatsächlich eine gute Erklärung dafür gibt, warum diese vier Beobachtungen auf der linken Seite so abnormal sind.

Dies ist übrigens die Ausnahme mehr als die Regel: Außer in kleinen Pilotstudien mit kleinen Stichproben und wenigen Variablen und wenn die Person, die die statistische Analyse durchführt, auch in den Datenerfassungsprozess involviert war, habe ich noch nie einen Fall erlebt, in dem vorhergehende Überzeugungen darüber bestanden Die Identität der Ausreißer stimmte tatsächlich. Dies ist übrigens recht einfach zu überprüfen. Unabhängig davon, ob Ausreißer mithilfe eines Ausreißererkennungsalgorithmus oder des Darmgefühls des Forschers identifiziert wurden, handelt es sich bei Ausreißern definitionsgemäß um Beobachtungen, die eine abnormale Hebelwirkung (oder „Zugkraft“) gegenüber den aus einer LS-Anpassung erhaltenen Koeffizienten aufweisen. Mit anderen Worten, Ausreißer sind Beobachtungen, deren Entfernung aus der Probe den LS-Fit stark beeinflussen sollte.

Auch wenn ich das noch nie persönlich erlebt habe, gibt es in der Literatur einige gut dokumentierte Fälle, in denen Beobachtungen, die von einem Ausreißererkennungsalgorithmus als Ausreißer gekennzeichnet wurden, als grobe Fehler oder durch einen anderen Prozess hervorgerufen wurden. In jedem Fall ist es weder wissenschaftlich gerechtfertigt noch sinnvoll, Ausreißer nur dann zu entfernen, wenn sie irgendwie verstanden oder erklärt werden können. Wenn eine kleine Ansammlung von Beobachtungen so weit vom Hauptteil der Daten entfernt ist, dass sie die Ergebnisse eines statistischen Verfahrens im Alleingang abrufen kann, ist es ratsam (und ich könnte natürlich hinzufügen), sie unabhängig davon zu behandeln, ob oder Nicht diese Datenpunkte sind zufällig auch aus anderen Gründen verdächtig.

(1): siehe Stephen M. Stigler, Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900.

(2): Berechnung der LTS-Regression für große Datenmengen (2006) PJ Rousseeuw, K. van Driessen.

(3): Robuste multivariate Hochleistungsverfahren (2008). Hubert M., Rousseeuw PJ und Van Aelst S. Quelle: Statist. Sci. Band 23, 92-119.

user603
quelle
6
Das ist gutes Zeug (+1). Ich denke jedoch, dass Sie die konventionelle Terminologie missbrauchen und "Ausreißer" als "einflussreiche Beobachtung" bezeichnet haben. Die Konzepte sind beide wertvoll, und Sie behandeln letztere hier gut, aber sie sind nicht so austauschbar, wie Sie anscheinend anzeigen. Eine einflussreiche Beobachtung zum Beispiel , die ist mit der Mehrzahl der Daten konsistent wäre Ihre Charakterisierung passen „Beobachtungen , die eine abnorme Hebelwirkung (oder‚Pull‘) über den von einem LS erhaltenen Koeffizienten passen“ würde aber nicht von den meisten Autoren in Betracht gezogen werden per se
Whuber
2
@whuber: Guter Punkt. In der Tat halte ich, ebenso wie neuere Lehrbücher über robuste Statistiken (zum Beispiel Robust Statistics: Theory and Methods. Wiley), solche Beobachtungen (sogenannte „gute Hebelpunkte“) für schädlich. Die Begründung ist, dass sie den Standardfehler der geschätzten Koeffizienten deflationieren, was den Benutzer dazu veranlasst, ungerechtfertigtes Vertrauen in die Stärke der beobachteten Beziehung zu setzen. Gute Ansatzpunkte als Ausreißer Unter Berücksichtigung macht auch den formalen Ansatz konsequenter: nach allen guten Ansatzpunkt do einen überdimensionalen Einfluss auf die se haben , die sind ein Bestandteil des LS / ML fit.
user603
3
+1 Sehr schönes Beispiel. Realdaten, die zwei nahezu orthogonale Anpassungen zeigen und bei denen die einflussreichen vier oben links nach einer OLS-Anpassung nicht die größten Residuen aufweisen.
Wayne
19

Im Allgemeinen bin ich vorsichtig, "Ausreißer" zu entfernen. Die Regressionsanalyse kann korrekt angewendet werden, wenn nicht normalverteilte Fehler, Fehler mit Heteroskedastizität oder Werte der Prädiktoren / unabhängigen Variablen vorliegen, die vom Rest "weit entfernt" sind. Das wahre Problem bei Ausreißern ist, dass sie nicht dem linearen Modell folgen, dem jeder andere Datenpunkt folgt. Woher wissen Sie, ob dies der Fall ist? Das tust du nicht.

Wenn überhaupt, möchten Sie nicht nach Werten Ihrer Variablen suchen, die Ausreißer sind. Stattdessen möchten Sie nach Werten Ihrer Residuen suchen , die Ausreißer sind. Schauen Sie sich diese Datenpunkte an. Sind ihre Variablen korrekt aufgezeichnet? Gibt es einen Grund, warum sie nicht dem gleichen Modell wie Ihre übrigen Daten folgen?

Natürlich kann der Grund, warum diese Beobachtungen als Ausreißer erscheinen (gemäß der Restdiagnose), darin liegen, dass Ihr Modell falsch ist. Ich habe einen Professor, der gerne sagte, wenn wir Ausreißer wegwerfen, würden wir immer noch glauben, dass sich die Planeten in perfekten Kreisen um die Sonne drehen. Kepler hätte den Mars wegwerfen können, und die Geschichte über die Umlaufbahn hätte ziemlich gut ausgesehen. Mars lieferte die entscheidende Erkenntnis, dass dieses Modell falsch war, und er hätte dieses Ergebnis verpasst, wenn er diesen Planeten ignoriert hätte.

Sie haben erwähnt, dass das Entfernen der Ausreißer Ihre Ergebnisse nicht sehr verändert. Dies liegt entweder daran, dass Sie nur eine sehr kleine Anzahl von Beobachtungen in Bezug auf Ihre Stichprobe entfernt haben, oder sie stimmen mit Ihrem Modell einigermaßen überein. Dies könnte darauf hindeuten, dass die Variablen selbst möglicherweise anders aussehen als die anderen, ihre Residuen jedoch nicht so hervorragend sind. Ich würde sie belassen und nicht versuchen, meine Entscheidung zu rechtfertigen, einige Punkte für meine Kritiker zu streichen.

Charlie
quelle
6
+1 Werfen Sie keine Daten weg, da dies ein Ausreißer ist. Finden Sie heraus, warum einige Daten nicht zutreffen.
Fomite
2
Das ist ein schrecklicher Rat. Es kommt sehr häufig vor, dass Ausreißer so weit vom Rest der Daten entfernt sind, dass sie die Regressionslinie so in ihre Richtung ziehen, dass sie auf einem Residuendiagramm nicht auffallen (oder im schlimmsten Fall große Residuen für das Original liefern) Datenpunkte). Tatsächlich kann gezeigt werden, dass, sobald Sie mehr als einen Ausreißer haben, dies nicht zuverlässig anhand eines Residuendiagramms einer klassischen Regression erkannt werden kann. Dies wird als Maskierungseffekt bezeichnet und ist insbesondere in vielen Beispielen für echte Daten gut dokumentiert.
user603
Dies ist übrigens auch der Grund, warum ich die Verwendung des Mars-Beispiels vermeiden möchte: Es zeigt ein Verfahren, das nur funktioniert, wenn Sie mit einem einzelnen Ausreißer arbeiten. Bei den meisten Anwendungen gibt es keine solche Garantie. Es gibt ein falsches Gefühl des Vertrauens in eine allgemein fehlerhafte Methodik (die wir als Statistiker unbedingt vermeiden sollten).
user603
15

+1 an @Charlie und @PeterFlom; Sie bekommen dort gute Informationen. Vielleicht kann ich hier einen kleinen Beitrag leisten, indem ich die Prämisse der Frage in Frage stelle. Ein Boxplot wird in der Regel (Software kann variieren, und ich weiß nicht genau, was SPSS tut) mehr als das 1,5-fache des Interquartilbereichs über (unter) dem dritten (ersten) Quartil als "Ausreißer" anzeigen. Wir können jedoch fragen, wie oft wir damit rechnen sollen, mindestens einen solchen Punkt zu finden, wenn wir wissen, dass alle Punkte aus derselben Verteilung stammen. Eine einfache Simulation kann uns helfen, diese Frage zu beantworten:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Dies zeigt, dass solche Punkte bei Stichproben der Größe 100 häufig auftreten (> 50% der Fälle), auch wenn nichts falsch ist. Wie der letzte Satz andeutet, hängt die Wahrscheinlichkeit, über die Boxplot-Strategie einen falschen Ausreißer zu finden, von der Stichprobengröße ab:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Es gibt andere Strategien zum automatischen Identifizieren von Ausreißern, aber jede solche Methode wird manchmal gültige Punkte als "Ausreißer" und manchmal echte Ausreißer als "gültige Punkte" falsch identifizieren. (Sie können sich diese Fehler als Fehler des Typs I und II vorstellen .) Ich denke bei diesem Thema (für was es sich lohnt) an die Auswirkungen des Einschlusses / Ausschlusses der fraglichen Punkte. Wenn es sich bei Ihrem Ziel um eine Vorhersage handelt, können Sie mithilfe der Kreuzvalidierung bestimmen, ob / wie viel einschließlich der fraglichen Punkte den quadratischen mittleren Vorhersagefehler erhöht . Wenn Ihr Ziel die Erklärung ist, können Sie sich dfBeta ansehen(Sehen Sie sich an, wie stark sich die Beta-Schätzungen Ihres Modells ändern, je nachdem, ob die fraglichen Punkte enthalten sind oder nicht). Eine andere (wohl die beste) Perspektive besteht darin, nicht zu entscheiden, ob fehlerhafte Punkte verworfen werden sollen, sondern stattdessen robuste Analysen zu verwenden.

gung - Wiedereinsetzung von Monica
quelle
Die von Ihnen empfohlenen Verfahren funktionieren nur dann zuverlässig, wenn höchstens ein Ausreißer vorhanden ist (unabhängig von der Größe Ihres Datensatzes). Dies ist eine unrealistische Annahme. Tukey kalibrierte die Whisker-Regel, um ungefähr 1% der Beobachtungen an jedem Ende auszuschließen, wenn die Daten aus einer Gauß-Verteilung stammen. Ihre Simulationen bestätigen dies. Nach Ansicht von Tukey sind die Verluste, die durch die Nichtbeachtung eines so kleinen Teils der Daten in den Fällen verursacht werden, in denen sich die Beobachtungen gut verhalten, für alle praktischen Belange bedeutungslos. Insbesondere in Bezug auf die Vorteile in den Fällen, in denen die Daten nicht sind.
user603
2
Vielen Dank für Ihren Kommentar, @ user603; Das ist eine zum Nachdenken anregende Position. Gegen welche von mir empfohlenen Verfahren wenden Sie sich: Verwenden Sie beispielsweise dfbeta, um mögliche Ausreißer zu erkennen , oder verwenden Sie robuste Analysen (prototypisch Tukeys Bisquadrat als alternative Verlustfunktion) , um sich vor deren Einfluss zu schützen, anstatt auszuwählen , welche Datenpunkte verworfen werden sollen?
gung - Wiedereinsetzung von Monica
Vielen Dank für den Hinweis auf die mangelnde Klarheit in meinem Kommentar (ich wurde durch die Längenbeschränkung eingeschränkt). Natürlich meine ich speziell die ersten: dfbeta und Kreuzvalidierung (letzteres ist nur dann problematisch, wenn die Beobachtungen, die zur Durchführung der Kreuzvalidierung verwendet wurden, zufällig aus der Originalstichprobe entnommen wurden. Ein Beispiel für den Fall, dass Kreuzvalidierung verwendet werden könnte, wäre in einer so genannten Qualitätskontrollumgebung sein, in der die für die Prüfung verwendeten Beobachtungen aus einer zeitlich unzusammenhängenden Stichprobe stammen).
user603
Vielen Dank für die Klarstellung, @ user603. Ich muss mit diesen Ideen spielen, um sie besser zu verstehen. Meine Intuition ist , dass es ziemlich schwierig sein würde , nicht , Ausreißer, die Ihre Ergebnisse verfälschen, zu bemerken. Es scheint, als müssten Ausreißer Ihre Ergebnisse auf beiden Seiten gleichermaßen verzerren. In diesem Fall würden Ihre Betas in etwa unbefangen sein und Ihre Ergebnisse wären einfach weniger "signifikant".
gung - Wiedereinsetzung von Monica
1
Meiner Intuition nach ist es ziemlich schwierig, Ausreißer, die Ihre Ergebnisse verfälschen, nicht zu bemerken, aber leider ist die Tatsache, dass dies nicht der Fall ist. Schauen Sie sich auch das Beispiel in meiner Antwort an.
user603
12

Sie sollten sich zunächst die Diagramme der Residuen ansehen: Folgen sie (ungefähr) einer Normalverteilung? Zeigen sie Anzeichen von Heteroskedastizität? Schauen Sie sich auch andere Diagramme an (ich verwende kein SPSS, kann also nicht genau sagen, wie dies in diesem Programm zu tun ist, noch welche Boxplots Sie sich ansehen; es ist jedoch schwer vorstellbar, dass Sternchen "nicht so schlecht" bedeuten, was sie wahrscheinlich bedeuten dass dies nach einem bestimmten Kriterium höchst ungewöhnliche Punkte sind).

Wenn Sie dann Ausreißer haben, schauen Sie sich diese an und versuchen Sie herauszufinden, warum.

Dann können Sie die Regression mit und ohne Ausreißer versuchen. Wenn die Ergebnisse ähnlich sind, ist das Leben gut. Berichten Sie mit einer Fußnote über die vollständigen Ergebnisse. Wenn nicht ähnlich, sollten Sie beide Regressionen erklären.

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Vielen Dank Peter. Ich habe die QQ-Diagramme überprüft und die Daten scheinen nicht unbedingt normal zu sein. Wenn ich die Ausreißer lösche, scheinen sie keinen großen Einfluss auf die Ergebnisse zu haben. Also, sollte ich sie einfach drin lassen? Es würde mich immer noch interessieren, was andere über die fallweise Diagnosetabelle in SPSS denken. Danke vielmals.
Anon
1
Ja, ich würde lassen sie dann in einer Fußnote etwas wie „Analyse mit mehreren Ausreißer gelöscht zeigten sehr ähnliche Ergebnisse“
Peter Flom - wieder einzusetzen Monica
2
Selbst wenn man davon ausgeht, dass man mit einem solchen Verfahren zuverlässig Ausreißer finden kann (und das kann man meistens nicht ), bleibt das Problem, was zu tun ist, wenn man die Ausreißer nicht "herausfinden" / erklären kann , seltsamerweise unbeantwortet. Ich befürworte den Rat, sich von SPSS fernzuhalten. -
user603