Bei Epidemien (plötzlicher Anstieg der Zahl) kommt es zu einer Zunahme der Fälle und Todesfälle aufgrund einer Viruszirkulation (wie das West - Nil - Virus in den USA im Jahr 2002) oder einer Abnahme der Resistenz von Menschen oder einer Kontamination von Nahrungsmitteln oder Wasser oder einer Zunahme der Zahl von Todesfällen Mücken. Diese Epidemien treten als Ausreißer auf, die alle 1 bis 5 Jahre auftreten können. Indem wir diese Ausreißer beseitigen, beseitigen wir Hinweise auf Epidemien, die einen wichtigen Teil der Vorhersage und des Krankheitsverständnisses ausmachen.
Ist eine Datenbereinigung beim Umgang mit Ausreißern aufgrund von Epidemien erforderlich?
Wird es die Ergebnisse verbessern oder die Ergebnisse der statistischen Analyse verschlechtern?
quelle
Ich persönlich würde das nicht "Datenbereinigung" nennen. Ich denke an Datenbereinigung eher im Sinne der Datenbearbeitung - Bereinigung von Inkonsistenzen im Datensatz (z. B. ein Datensatz hat ein Alter von 1000 Jahren gemeldet oder eine Person im Alter von 4 Jahren ist alleinerziehend usw.).
Das Vorhandensein eines echten Effekts in Ihren Daten macht sie nicht "chaotisch" (im Gegenteil, das Vorhandensein von echten Effekten würde sie reich machen) - obwohl dies Ihre mathematische Aufgabe komplizierter machen kann. Ich würde vorschlagen, dass die Daten auf diese Weise "bereinigt" werden, wenn dies der einzig mögliche Weg ist, um eine Vorhersage zu erhalten. Wenn es einen praktikablen Weg gibt, der keine Informationen wegwirft, dann benutze diesen.
Es hört sich so an, als könnten Sie von einer Art zyklischer Analyse profitieren, vorausgesetzt, Sie sagen, dieser Effekt käme von Zeit zu Zeit (so etwas wie ein "Konjunkturzyklus").
Aus meiner Sicht kann das Entfernen eines echten Effekts aus dieser Quelle Ihre Vorhersagen nur verschlechtern, wenn Sie eine Vorhersage treffen möchten. Dies liegt daran, dass Sie genau die Informationen "weggeworfen" haben, die Sie vorhersagen möchten!
Der andere Punkt ist, dass es schwierig sein kann zu bestimmen, wie viel Todesfälle durch die Epidemie verursacht wurden und wie viel durch die gewöhnlichen Fluktuationen verursacht wurde.
In der statistischen Terminologie klingt die Epidemie so, aus Ihrer Sicht ist es ein "Ärgernis" für das, was Sie tatsächlich analysieren möchten. Sie sind also nicht besonders daran interessiert, müssen dies jedoch in Ihrer Analyse irgendwie berücksichtigen. Eine "schnelle und schmutzige" Möglichkeit, dies in einer Regressionseinstellung zu tun, besteht darin, einen Indikator für die Epidemiejahre / -perioden als Regressorvariable aufzunehmen. Auf diese Weise erhalten Sie eine durchschnittliche Schätzung der Auswirkungen von Epidemien (und es wird implizit davon ausgegangen, dass die Auswirkungen für jede Epidemie gleich sind). Dieser Ansatz kann jedoch nur zur Beschreibung des Effekts verwendet werden, da Ihre Regressionsvariable bei der Vorhersage unbekannt ist (Sie wissen nicht, welche Perioden in Zukunft epidemisch sein werden).
Eine andere Möglichkeit, die Epidemie zu erklären, besteht darin, ein Mischmodell mit zwei Komponenten zu verwenden: ein Modell für den Epidemieteil und ein Modell für den "gewöhnlichen" Teil. Das Modell läuft dann in zwei Schritten ab: 1) Klassifizieren einer Periode als epidemisch oder normal, dann 2) Anwenden des Modells, auf das es klassifiziert wurde.
quelle
Um Ihnen eine allgemeine Antwort auf Ihre Frage zu geben, lassen Sie mich einen meiner alten Geschäftsführer paraphieren: Die Forschungsmöglichkeiten finden Sie in den Ausreißern des Modells, das Sie anpassen.
Die Situation ist ähnlich wie bei dem Experiment, das mein Robert Millikan zur Bestimmung der Ladung eines Elektrons durchgeführt hat. Jahrzehntelang nachdem er den Nobelpreis für sein Experiment erhalten hatte, wurden seine Notizen überprüft und es wurde festgestellt, dass er eine große Anzahl von Datenpunkten verwarf, weil sie nicht mit den von ihm gesuchten Ergebnissen übereinstimmten. Ist das schlechte Wissenschaft?
Wenn Sie einige Ausreißer finden, dann sind sie möglicherweise auf "statistische Abberationen" zurückzuführen. Wenn Sie jedoch mehr als ein paar Ausreißer finden, müssen Sie Ihre Daten genauer untersuchen. Wenn Sie keine Ursache für die Abberationen angeben können, verstehen Sie den Prozess nicht und ein statistisches Modell wird Ihr Problem nicht lösen. Der Zweck eines Modells besteht darin, einen Prozess zusammenzufassen. Das Modell fasst einen Prozess, den der Experimentator nicht versteht, nicht auf magische Weise zusammen.
quelle
Die Rolle der "Datenbereinigung" besteht darin, herauszufinden, wann "unsere Gesetze (Modelle) nicht funktionieren". Das Anpassen von Ausreißern oder abnormalen Datenpunkten ermöglicht es uns, "robuste Schätzungen" der Parameter im aktuellen Modell zu erhalten, die wir unterhalten. Diese "Ausreißer" erlauben, wenn sie nicht behandelt werden, eine unerwünschte Verzerrung der Modellparameter, da die Schätzung "dazu dient, diese Datenpunkte zu erklären", die sich "nicht gemäß unserem hypothetischen Modell verhalten". Mit anderen Worten, es gibt eine Menge Amortisation in Bezug auf die erklärte Summe der Quadrate, wenn man sich auf die "Bösen" konzentriert. Die empirisch identifizierten Punkte, die gereinigt werden müssen, sollten sorgfältig geprüft werden, um möglicherweise Ursachenfaktoren zu entwickeln / vorzuschlagen, die nicht im aktuellen Modell enthalten sind.
Wie lässt sich die Auswirkung einer Intervention in einem Staat im Vergleich zu einem anderen anhand der jährlichen Sterblichkeitsrate bewerten?
Wissenschaft zu betreiben bedeutet, nach wiederholten Mustern zu suchen.
Anomalien zu erkennen bedeutet, Werte zu identifizieren, die nicht wiederholten Mustern folgen. Woher sonst würden Sie wissen, dass ein Punkt gegen dieses Modell verstößt? Tatsächlich muss der Prozess des Wachstums, Verstehens, Findens und Überprüfens von Ausreißern iterativ sein. Dies ist kein neuer Gedanke.
Sir Frances Bacon schrieb vor etwa 400 Jahren in Novum Organum: „Fehler in Natur, Sport und Monstern korrigieren das Verständnis in Bezug auf gewöhnliche Dinge und enthüllen allgemeine Formen. Denn wer die Wege der Natur kennt, wird ihre Abweichungen leichter bemerken; und wer auch immer Abweichungen kennt, wird ihre Wege genauer beschreiben. “
Wir ändern unsere Regeln, indem wir beobachten, wann die aktuellen Regeln versagen.
Wenn die identifizierten Ausreißer tatsächlich alle Impulse sind und ähnliche Auswirkungen (Größe) haben, schlagen wir Folgendes vor (aus einem anderen Poster zitiert):
"Eine" schnelle und schmutzige "Möglichkeit, dies in einer Regressionseinstellung zu tun, besteht darin, einen Indikator für die Epidemiejahre / -perioden als Regressorvariable aufzunehmen. Dies gibt Ihnen eine durchschnittliche Schätzung der Auswirkung von Epidemien (und geht implizit davon aus, dass dies der Fall ist) Dies gilt jedoch nur für die Beschreibung des Effekts, da Ihre Regressionsvariable bei der Vorhersage unbekannt ist (Sie wissen nicht, welche Perioden in Zukunft epidemisch sein werden). "
Dies setzt natürlich voraus, dass die einzelnen Anomalien (Pulsjahre) ähnliche Auswirkungen haben. Wenn sie sich unterscheiden, wäre eine oben beschriebene Portmanteau-Variable falsch.
quelle
Eine der am häufigsten verwendeten Methoden zum Auffinden von Epidemien in retrospektiven Daten besteht darin, nach Ausreißern zu suchen - viele Grippeforscher konzentrieren sich beispielsweise in erster Linie auf die Reste ihrer angepassten Modelle und nicht auf die Modelle selbst, um Orte zu sehen, an denen "der Tag" ist Vorhersagen des Modells scheitern - eine der Möglichkeiten, wie das Modell scheitern kann, ist das Auftreten einer Epidemie.
Es ist jedoch unerlässlich, dass Sie in Ihren Ergebnissen zwischen der Suche nach Ausreißern unterscheiden - wahrscheinlich nicht die beste Idee überhaupt - und dem, was die meisten Leute als "Datenbereinigung" bezeichnen. Hier suchen Sie nach Ausreißern, nicht weil sie ein statistisches Problem darstellen, sondern weil sie Probleme mit der Datenqualität aufwerfen.
Zum Beispiel gibt es in einem Datensatz, den ich habe, eine Variable für den Beginn einer Krankheit. Für ein Fach liegt dieses Datum im November 1929. Habe ich das für richtig gehalten? Nein. Dies weist auf ein Datenqualitätsproblem hin, das behoben werden muss. In diesem Fall wird das Datum anhand anderer Informationen zum Thema korrigiert. Diese Art der Datenbereinigung verbessert aktiv die Qualität Ihrer statistischen Ergebnisse.
quelle