Ich habe nach einer Möglichkeit gesucht, Ausreißer aus einem Datensatz zu entfernen, und diese Frage gefunden .
In einigen Kommentaren und Antworten auf diese Frage wurde jedoch darauf hingewiesen, dass es keine gute Praxis ist, Ausreißer aus den Daten zu entfernen.
In meinem Datensatz habe ich mehrere Ausreißer, die sehr wahrscheinlich nur auf Messfehler zurückzuführen sind. Selbst wenn dies bei einigen nicht der Fall ist, kann ich dies nicht von Fall zu Fall überprüfen, da zu viele Datenpunkte vorhanden sind. Ist es statistisch gültig, nur die Ausreißer zu entfernen? Oder, wenn nicht, was könnte eine andere Lösung sein?
Wenn ich diese Punkte einfach dort lasse, beeinflussen sie zB den Mittelwert in einer Weise, die die Realität nicht widerspiegelt (weil die meisten davon sowieso Fehler sind).
EDIT: Ich arbeite mit Hautleitwertdaten. Die meisten Extremwerte sind auf Artefakte zurückzuführen, z. B. wenn jemand an den Drähten zieht.
EDIT2: Mein Hauptinteresse an der Analyse der Daten besteht darin, festzustellen, ob zwischen zwei Gruppen ein Unterschied besteht
Antworten:
Ich empfehle nicht, Ausreißer in der Hauptanalyse auszuschließen (es sei denn, Sie sind sich wirklich sicher, dass sie sich irren). Sie können dies jedoch in einer Sensitivitätsanalyse durchführen und die Ergebnisse der beiden Analysen vergleichen. In der Wissenschaft entdeckt man oft gerade dann neue Dinge, wenn man sich auf solche Ausreißer konzentriert.
Denken Sie zur weiteren Erläuterung an die bahnbrechende Entdeckung von Penicillin durch Fleming, die auf der versehentlichen Kontamination seiner Versuche mit einem Schimmelpilz beruht:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
In der nahen Vergangenheit oder Gegenwart wird die Erkennung von Ausreißern häufig als Leitfaden für Innovationen in den biomedizinischen Wissenschaften verwendet. Siehe zum Beispiel die folgenden Artikel (mit einigen geeigneten R-Codes):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Wenn Sie vernünftige Gründe haben, einige Daten auszuschließen, können Sie dies tun, vorzugsweise in einer Sensitivitätsanalyse und nicht in der primären. Sie können beispielsweise alle Werte ausschließen, die biologisch nicht plausibel sind (z. B. eine Temperatur von 48 Grad Celsius bei einem septischen Patienten). Ebenso können Sie alle ersten und letzten Messungen für einen bestimmten Patienten ausschließen, um Bewegungsartefakte zu minimieren. Beachten Sie jedoch, dass bei diesem Post-hoc-Vorgang (der nicht auf vordefinierten Kriterien basiert) das Risiko einer Datenmassage besteht.
quelle
Eine Möglichkeit ist das Ausschließen von Ausreißern, aber IMHO sollten Sie dies nur tun, wenn Sie (mit fast Gewissheit) argumentieren können, warum solche Punkte ungültig sind (z. B. Messgeräte ausgefallen, Messmethode aus irgendeinem Grund unzuverlässig, ...). Beispielsweise wird bei Frequenzbereichsmessungen DC häufig verworfen, da viele verschiedene Begriffe zu DC beitragen, was nicht immer mit dem Phänomen zusammenhängt, das Sie beobachten möchten.
Das Problem beim Entfernen von Ausreißern ist, dass Sie ein gutes Modell der "guten Daten" haben müssen, um zu bestimmen, welche Punkte Ausreißer sind oder nicht. Wenn Sie sich bezüglich des Modells unsicher sind (welche Faktoren sollten einbezogen werden, welche Struktur das Modell hat, welche Annahmen das Rauschen hat, ...), können Sie sich bezüglich Ihrer Ausreißer nicht sicher sein. Diese Ausreißer sind möglicherweise nur Beispiele, die Ihnen mitteilen möchten, dass Ihr Modell falsch ist. Mit anderen Worten: Das Entfernen von Ausreißern stärkt Ihr (falsches!) Modell, anstatt Ihnen neue Erkenntnisse zu ermöglichen!
Eine andere Möglichkeit ist die Verwendung robuster Statistiken. ZB sind der Mittelwert und die Standardabweichung empfindlich gegenüber Ausreißern, andere Metriken für "Standort" und "Streuung" sind robuster. Verwenden Sie beispielsweise anstelle des Mittelwerts den Median. Verwenden Sie anstelle der Standardabweichung den Bereich zwischen den Quartilen. Anstelle der standardmäßigen Regression der kleinsten Quadrate können Sie auch eine robuste Regression verwenden. Alle diese robusten Methoden heben die Ausreißer auf die eine oder andere Weise hervor, aber sie entfernen die Ausreißerdaten normalerweise nicht vollständig (dh eine gute Sache).
quelle
Dachte, ich würde eine warnende Geschichte über das Entfernen von Ausreißern hinzufügen:
Erinnern Sie sich an das Problem mit dem Loch in der polaren Ozonschicht? Es gab einen Satelliten, der speziell zur Messung der Ozonkonzentration über dem Pol in eine Umlaufbahn gebracht wurde. Einige Jahre lang berichteten die nachverarbeiteten Daten des Satelliten, dass das polare Ozon in normalen Mengen vorhanden war, obwohl andere Quellen eindeutig zeigten, dass das Ozon fehlte. Schließlich ging jemand zurück, um die Satellitensoftware zu überprüfen. Es stellte sich heraus , dass jemand den Code geschrieben hatte , zu überprüfen , ob die rohe Messung innerhalb eines erwarteten Bereichs um den typischen historischen Niveau war, und davon ausgehen , dass jede Messung außerhalb des Bereichs war nur ein Instrument ‚Spike‘ (dh ein Ausreißer), auto- Wert korrigieren . Zum Glück hatten sie auch die Rohmessungen aufgezeichnet; Als sie sie überprüften, stellten sie fest, dass das Loch die ganze Zeit gemeldet worden war.
quelle
"Ausreißer" ist ein praktischer Begriff für das Sammeln von Daten, die nicht zu Ihrem erwarteten Prozess passen, um sie aus der Analyse zu entfernen.
Ich würde vorschlagen, niemals (Einschränkung später) Ausreißer zu entfernen. Mein Hintergrund ist die statistische Prozesskontrolle, daher beschäftige ich mich oft mit großen Mengen automatisch generierter Zeitreihendaten, die abhängig von den Daten und der Verteilung mit einem Laufdiagramm / Moving Box Plot / usw. verarbeitet werden.
Die Sache mit Ausreißern ist, dass sie immer Informationen über Ihren "Prozess" liefern. Was Sie sich als einen Prozess vorstellen, sind oftmals viele Prozesse, und es ist weitaus komplexer, als Sie glauben.
Anhand des Beispiels in Ihrer Frage würde ich vorschlagen, dass es eine Reihe von "Prozessen" geben könnte. es wird Abweichungen geben wegen ...
Alle diese Prozesse führen zu zusätzlichen Abweichungen in den Daten und verschieben wahrscheinlich den Mittelwert und ändern die Form der Verteilung. Viele davon können Sie nicht in einzelne Prozesse aufteilen.
Gehen wir also zu der Idee über, Datenpunkte als "Ausreißer" zu entfernen ... Ich würde Datenpunkte nur entfernen, wenn ich sie definitiv einem bestimmten "Prozess" zuordnen kann, den ich nicht in meine Analyse einbeziehen möchte. Sie müssen dann sicherstellen, dass die Gründe für die Nichtaufnahme im Rahmen Ihrer Analyse erfasst werden, sodass dies offensichtlich ist. Nehmen Sie keine Zuschreibung an, das ist der Schlüssel, um zusätzliche Notizen durch Beobachtung während Ihrer Datenerfassung zu machen.
Ich würde Ihre Aussage anfechten, "weil die meisten davon ohnehin Fehler sind", da es sich nicht um Fehler handelt, sondern nur um einen Teil eines anderen Prozesses, den Sie in Ihren Messungen als unterschiedlich identifiziert haben.
In Ihrem Beispiel halte ich es für sinnvoll , Datenpunkte auszuschließen, die Sie einem separaten Prozess zuordnen können, den Sie nicht analysieren möchten.
quelle
Wenn Sie Ausreißer entfernen, müssen Sie in den meisten Situationen dokumentieren, dass Sie dies tun, und warum. Wenn dies für ein wissenschaftliches Dokument oder für regulatorische Zwecke vorgesehen ist, kann dies dazu führen, dass Ihre endgültigen Statistiken diskontiert und / oder abgelehnt werden.
Die bessere Lösung besteht darin, zu ermitteln, wann Sie vermuten, dass Sie schlechte Daten erhalten (z. B. wenn Menschen an Drähten ziehen), dann zu ermitteln, wann Menschen an Drähten ziehen, und die Daten aus diesem Grund zu ziehen. Dies wird wahrscheinlich auch dazu führen, dass einige "gute" Datenpunkte gelöscht werden, aber Sie haben jetzt einen "echten" Grund, diese Datenpunkte am Ende der Sammlung und nicht am Ende der Analyse zu kennzeichnen und zu diskontieren. Solange Sie dies sauber und transparent tun, ist es weitaus wahrscheinlicher, dass dies für Dritte akzeptabel ist. Wenn Sie Datenpunkte im Zusammenhang mit gezogenen Drähten entfernen und dennoch Ausreißer feststellen, ist die mögliche Schlussfolgerung, dass die gezogenen Drähte nicht das (einzige) Problem sind - das weitere Problem könnte an Ihrem Versuchsaufbau oder Ihrer Theorie liegen.
Eines der ersten Experimente, das meine Mutter hatte, als sie zur Universität zurückkehrte, um ihren BSc zu beenden, war eines, bei dem den Studenten eine „schlechte“ Theorie über die Funktionsweise eines Prozesses gegeben wurde und sie dann aufgefordert wurden, ein Experiment durchzuführen. Schüler, die die resultierenden "schlechten" Datenpunkte gelöscht oder geändert haben, haben die Zuweisung nicht bestanden. Diejenigen, die korrekt angegeben haben, dass ihre Daten nicht mit den in der (schlechten) Theorie vorhergesagten Ergebnissen übereinstimmen, haben bestanden. Die Aufgabe bestand darin, die Schüler zu lehren, ihre Daten nicht zu „reparieren“ (zu verfälschen), wenn dies nicht zu erwarten war.
Zusammenfassung: Wenn Sie fehlerhafte Daten generieren, korrigieren Sie Ihr Experiment und nicht die Daten.
quelle
Es ist sicher ein moralisches Dilemma. Auf der einen Seite, warum sollten Sie einige verdächtige Datenpunkte die Anpassung Ihres Modells an den Großteil der Daten ruinieren lassen? Andererseits ist das Löschen von Beobachtungen, die nicht mit dem Realitätskonzept Ihres Modells übereinstimmen, eine Art Zensur. Bis zu Egon könnten diese Ausreißer versuchen, Ihnen etwas über diese Realität zu erzählen.
In einer Präsentation des Statistikers Steve MacEachern definierte er Ausreißer als "[nicht repräsentativ für das untersuchte Phänomen]". Wenn Sie unter diesem Gesichtspunkt der Ansicht sind, dass diese verdächtigen Datenpunkte nicht repräsentativ für das zu untersuchende Hautleitfähigkeitsphänomen sind Vielleicht gehören sie nicht in die Analyse. Oder wenn sie bleiben dürfen, sollte eine Methode angewendet werden, die ihren Einfluss begrenzt. In derselben Präsentation gab MacEachern Beispiele für robuste Methoden, und ich erinnere mich, dass in diesen wenigen Beispielen die klassischen Methoden mit entfernten Ausreißern immer mit den robusten Analysen mit den noch einbezogenen Ausreißern übereinstimmten. Persönlich neige ich dazu, mit den klassischen Techniken zu arbeiten, mit denen ich mich am wohlsten fühle, und lebe mit der moralischen Unsicherheit der Löschung von Ausreißern.
quelle
Wenn ich eine Zufallsstichprobe von 100 Personen durchführe und eine dieser Personen zufällig Bill Gates ist, dann ist Bill Gates, soweit ich das beurteilen kann, repräsentativ für 1/100 der Bevölkerung.
Ein gemittelter Mittelwert gibt an, dass der durchschnittliche Lotteriegewinn 0 US-Dollar beträgt.
quelle
Natürlich sollten Sie die Ausreißer entfernen, da sie definitionsgemäß nicht der untersuchten Verteilung folgen und ein parasitäres Phänomen sind.
Die eigentliche Frage lautet: Wie kann ich die Ausreißer zuverlässig erkennen?
quelle