Ich frage mich, ob es eine einfache Möglichkeit gibt, Ausreißer zu erkennen.
Bei einem meiner Projekte, bei dem es sich im Grunde genommen um eine Korrelation zwischen der Häufigkeit der Teilnahme der Befragten an körperlicher Aktivität in einer Woche und der Häufigkeit ihrer wöchentlichen Mahlzeiten außerhalb des Hauses (Fast Food) handelte, habe ich ein Streudiagramm gezeichnet und das Diagramm buchstäblich entfernt Datenpunkte, die extrem waren. (Das Streudiagramm zeigte eine negative Korrelation.)
Dies beruhte auf einer Wertbeurteilung (basierend auf dem Streudiagramm, in dem diese Datenpunkte eindeutig extrem waren). Ich habe keine statistischen Tests durchgeführt.
Ich frage mich nur, ob dies eine vernünftige Art ist, mit Ausreißern umzugehen.
Ich habe Daten von 350 Personen, so dass der Verlust von (etwa) 20 Datenpunkten für mich keine Sorge ist.
quelle
Antworten:
Es gibt keinen einfachen Weg, um Ausreißer zu entfernen. Es gibt zwei Arten von Ausreißern:
1) Dateneingabefehler. Diese sind oft am einfachsten zu erkennen und immer am einfachsten zu handhaben. Wenn Sie die richtigen Daten finden, korrigieren Sie diese. Wenn nicht, löschen Sie es.
2) Legitime Daten, die ungewöhnlich sind. Das ist viel schwieriger. Bei bivariaten Daten wie Ihren kann der Ausreißer univariat oder bivariat sein.
a) Univariate. Erstens hängt "ungewöhnlich" von der Verteilung und der Stichprobengröße ab. Sie geben uns den Stichprobenumfang von 350 an, aber wie ist die Verteilung? Es ist eindeutig nicht normal, da es sich um eine relativ kleine Ganzzahl handelt. Was unter einem Poisson ungewöhnlich ist, wäre nicht unter einem negativen Binomial. Ich würde eine negative Binomialbeziehung ohne Inflation vermuten.
Aber auch wenn Sie die Verteilung haben, werden die (möglichen) Ausreißer die Parameter beeinflussen. Sie können sich die Verteilungen "Auslassen" ansehen, in denen Sie prüfen, ob der Datenpunkt q ein Ausreißer wäre, wenn die Daten alle Punkte außer q hätten. Was aber, wenn es mehrere Ausreißer gibt?
b) Bivariate. Hier ist keiner der Variablenwerte an sich ungewöhnlich, aber zusammen sind sie ungerade. Es gibt einen möglicherweise apokryphen Bericht, der besagt, dass es in den USA einst 20.000 12-jährige Witwen gab. Zwölfjährige sind keine Seltenheit, Witwen auch nicht, aber Zwölfjährige sind es.
In Anbetracht dessen ist es möglicherweise einfacher, ein solides Maß für die Beziehung anzugeben.
quelle
Ich habe viel über Ausreißer recherchiert, insbesondere als ich von 1978 bis 1980 bei Oak Ridge an der Validierung von Energiedaten gearbeitet habe. Es gibt formelle Tests für univariate Ausreißer für normale Daten (z. B. Grubbs-Test und Dixons Ratio-Test). Es gibt Tests für multivariate Ausreißer und Zeitreihen. Das Buch von Barnett und Lewis über "Ausreißer in statistischen Daten" ist die Bibel über Ausreißer und deckt so ziemlich alles ab.
Als ich bei Oak Ridge an der Datenvalidierung arbeitete, hatten wir große multivariate Datensätze. Für univariate Ausreißer gibt es eine Richtung für Extreme (hoch über dem Mittelwert und hoch unter dem Mittelwert). Für multivariate Ausreißer gibt es jedoch viele Möglichkeiten, nach Ausreißern zu suchen. Unsere Philosophie war es zu überlegen, wie die Daten verwendet werden sollen. Wenn Sie versuchen, bestimmte Parameter wie eine bivariate Korrelation oder einen Regressionskoeffizienten zu schätzen, möchten Sie in die Richtung schauen, die den größten Effekt auf den interessierenden Parameter hat. Zu dieser Zeit hatte ich Mallows 'unveröffentlichte Arbeit über Einflussfunktionen gelesen. Die Verwendung von Einflussfunktionen zur Erkennung von Ausreißern wird im multivariaten Analysebuch von Gnanadesikan behandelt. Natürlich finden Sie es auch in Barnett und Lewis.
Die Einflussfunktion für einen Parameter wird an Punkten im multivariaten Raum der Beobachtungen definiert und misst im Wesentlichen die Differenz zwischen der Parameterschätzung beim Einbeziehen des Datenpunkts und dem Auslassen des Datenpunkts. Sie können solche Schätzungen mit jedem Stichprobenpunkt durchführen, aber normalerweise können Sie eine schöne funktionale Form für die Einflussfunktion ableiten, die Einblick und schnellere Berechnung ermöglicht.
Zum Beispiel zeige ich in meinem Artikel im American Journal of Mathematical and Management Science von 1982 "Die Einflussfunktion und ihre Anwendung auf die Datenvalidierung" die analytische Formel für die Einflussfunktion für die bivariate Korrelation und dass die Konturen des konstanten Einflusses Hyperbel sind. Die Konturen geben also die Richtung in der Ebene an, in der die Einflussfunktion am schnellsten zunimmt.
In meinem Aufsatz zeige ich, wie wir die Einflussfunktion für die bivariate Korrelation mit den FPC-Form-4-Daten zur Erzeugung und zum Verbrauch von Energie angewendet haben. Es gibt eine eindeutig hohe positive Korrelation zwischen den beiden und wir fanden einige Ausreißer, die einen großen Einfluss auf die Schätzung der Korrelation hatten. Weitere Untersuchungen ergaben, dass mindestens einer der Punkte fehlerhaft war und wir ihn korrigieren konnten.
Ein wichtiger Punkt, den ich immer erwähne, wenn ich über Ausreißer diskutiere, ist, dass die automatische Zurückweisung falsch ist. Der Ausreißer ist nicht immer ein Fehler und liefert manchmal wichtige Informationen zu den Daten. Gültige Daten sollten nicht entfernt werden, nur weil sie nicht unserer Realitätstheorie entsprechen. Ob es schwierig ist oder nicht, der Grund, warum der Ausreißer aufgetreten ist, sollte immer untersucht werden.
Ich sollte erwähnen, dass dies nicht das erste Mal ist, dass multivariate Ausreißer auf dieser Website diskutiert wurden. Eine Suche nach Ausreißern würde wahrscheinlich zu mehreren Fragen führen, bei denen multivariate Ausreißer diskutiert wurden. Ich weiß, dass ich zuvor auf meine Arbeit und diese Bücher verwiesen und Links zu ihnen gegeben habe.
Auch wenn es um die Ablehnung von Ausreißern geht, haben viele von uns auf dieser Website dagegen geraten, insbesondere wenn dies ausschließlich auf der Grundlage eines statistischen Tests erfolgt. Peter Huber erwähnt oft robuste Schätzungen als Alternative zur Ausreißer-Ablehnung. Die Idee ist, dass robuste Prozeduren die Ausreißer abschwächen und ihre Auswirkungen auf die Schätzung verringern, ohne dass sie hartnäckig zurückgewiesen und ein nicht robuster Schätzer verwendet werden muss.
Die Einflussfunktion wurde ursprünglich von Frank Hampel in seiner Dissertation in den frühen 1970er Jahren (1974, glaube ich) entwickelt. Seine Idee war es, mithilfe von Einflussfunktionen Schätzer zu identifizieren, die nicht robust gegenüber Ausreißern sind, und dabei zu helfen, robuste Schätzer zu entwickeln.
Hier ist ein Link zu einer früheren Diskussion zu diesem Thema, in der ich einige meiner Arbeiten zur Erkennung von Ausreißern in Zeitreihen mithilfe von Einflussfunktionen erwähnte.
quelle
Ein weiterer einfacher Ansatz für den Umgang mit Ausreißern ist die Verwendung nicht parametrischer Statistiken. Wahrscheinlich würde mit Ihrer Stichprobengröße ein Spearman-Rho als Index für die Korrelation gut funktionieren. (Beachten Sie jedoch, dass nichtparametrische Statistiken in Rangfolge bei nichtlinearen Beziehungen wenig hilfreich sind.)
Wenn Sie ein Pearson-r (eine parametrische Statistik) verwenden möchten und die Entfernung nach Cook nicht berechnen können, verwenden Sie möglicherweise die Faustregel, dass jeder Datenpunkt mehr als 2,67 Standardabweichungen (SD) vom Mittelwert aufweist oder 4,67 sd vom Mittelwert ist ein Ausreißer bzw. ein Extrem. Dies sind typische Grenzwerte für Ausreißer und extreme Datenpunkte, die in einem statistischen Standardanalyseprogramm (SPSS) verwendet werden.
Nur weil ein Datenpunkt ein Ausreißer ist, bedeutet dies nicht, dass es sich um fehlerhafte Daten handelt, die verworfen werden müssen. Sie können Ihre Korrelation mit und ohne Extrempunkte berechnen und von dort aus fortfahren.
quelle
Vielleicht möchten Sie Cook's Distance ausprobieren. Im Wikipedia-Artikel finden Sie Vorschläge für Grenzwerte. Wenn Sie auf ein Regressionsmodell zusteuern, können Sie auch eine robuste Regression ausprobieren.
quelle
Entfernen Sie erstens keine atypischen Werte, es sei denn, Sie sind sich sicher, dass sie nicht in der Studie enthalten sind! Sie können einige wichtige Informationen enthalten (Variabilität). Sie sollten sie löschen, wenn offensichtlich ist, dass der Ausreißer auf falsch eingegebene oder gemessene Daten zurückzuführen ist. Wenn Sie die Stichprobenmethode zur Erfassung Ihrer Daten nicht kennen, sollten Sie atypische Werte und ihre Auswirkungen wie folgt identifizieren:
Abstandsgrad zum Schwerpunkt im Raum von x:hich ich (Hebelwirkung). Wenn einigehich ich ist sehr hoch Sie haben eine Beobachtung, die Ihr Modell verzerren kann, weil sie außerhalb des Bereichs Ihrer Studie liegt.
Grad des Einflusses auf das angepasste Modell: Einflusspunkte sind diejenigen, die genug Gewicht haben, um Ihr Modell zu ändern. Dann unterscheiden sich die Koeffizienten des angepassten Modells unter Verwendung aller n Beobachtungen stark von den Koeffizienten des angepassten Modells unter Verwendung aller Punkte, jedoch nicht dieser Beobachtungich -th. D Cich= e i ∗2⋅ hich ich/ [(1 - hich ich) ⋅ p ]
Die Cook-Distanz oder Cook-D ist eine häufig verwendete Schätzung des Einflusses eines Datenpunkts. :
Mögliche Lösungen:
quelle