Ok, faire Warnung - dies ist eine philosophische Frage, die keine Zahlen beinhaltet. Ich habe viel darüber nachgedacht, wie sich Fehler im Laufe der Zeit in Datensätze einschleichen und wie dies von Analysten behandelt werden sollte - oder ob es überhaupt wichtig sein sollte?
Als Hintergrund mache ich die Analyse einer Langzeitstudie, die viele Datensätze umfasst, die von wahrscheinlich 25 Personen über einen Zeitraum von 7 bis 8 Jahren gesammelt wurden - niemand hat jemals alle Daten in eine kohärente Struktur gebracht (das ist meine Aufgabe). Ich habe viel Daten eingegeben (von Fotokopien alter Laborhefte transkribiert) und finde immer wieder kleine Transkriptionsfehler, die andere Leute gemacht haben, und auch Dateneingaben, die schwer oder unmöglich zu lesen sind - hauptsächlich wegen der Tinte ist im Laufe der Zeit verblasst. Ich verwende den Kontext, um die besten Vermutungen darüber anzustellen, was die Daten aussagen, und lasse die Daten insgesamt darauf hinweisen, wenn ich nicht ganz sicher bin. Aber ich denke immer wieder daran, dass jedes Mal, wenn Daten kopiert werden, die Fehlerhäufigkeit unvermeidlich zunimmt, bis die ursprünglichen Daten vollständig verloren gehen.
Dies führt mich zu einem Gedanken: Zusätzlich zu Instrumenten- / Messfehlern und Aufzeichnungsfehlern gibt es eine grundlegende Komponente „Datenverarbeitungsfehler“, die mit der Zeit und mit einer stärkeren Handhabung der Daten zunimmt (Randnotiz: Dies ist wahrscheinlich der Fall) Nur eine andere Art, den 2. Hauptsatz der Thermodynamik zu formulieren, richtig? Die Datenentropie wird immer zunehmen. Infolgedessen frage ich mich, ob eine Art "Korrektur" eingeführt werden sollte, um die Lebensgeschichte von Datensätzen zu berücksichtigen (ähnlich einer Bonferroni-Korrektur). Mit anderen Worten, sollten wir davon ausgehen, dass ältere oder mehr kopierte Datensätze weniger genau sind, und wenn ja, sollten wir die Ergebnisse entsprechend anpassen?
Mein anderer Gedanke ist jedoch, dass Fehler ein fester Bestandteil der Datenerfassung und -verarbeitung sind. Da alle statistischen Tests mit realen Daten entwickelt wurden, werden diese Fehlerquellen möglicherweise bereits in die Analyse einbezogen.
Ein weiterer erwähnenswerter Punkt ist, dass Datenfehler, da sie zufällig sind, die Stärke eines Befundes mit größerer Wahrscheinlichkeit verringern als verbessern - mit anderen Worten, Datenverarbeitungsfehler würden zu Fehlern vom Typ 2 und nicht zu Fehlern vom Typ 1 führen . Wenn Sie also in vielen Kontexten alte / fragwürdige Daten verwenden und dennoch einen Effekt finden, erhöht dies Ihr Vertrauen, dass der Effekt real ist (da er stark genug ist, um das Hinzufügen eines zufälligen Fehlers zum Datensatz zu überleben). Aus diesem Grund sollte die "Korrektur" vielleicht in die andere Richtung gehen (das für einen "Befund" erforderliche Alpha-Niveau erhöhen) oder uns einfach nicht stören?
Wie auch immer, es tut mir leid, dass ich so ausführlich und stumpf bin. Ich bin mir nicht sicher, wie ich diese Frage präziser stellen soll. Danke, dass du mit mir zusammen bist.
Antworten:
Ich stimme dem Vorschlag von @Aksakal zu: Wenn Messfehler vom Analysten als potenziell wichtig angesehen werden, können und sollten sie im Rahmen des Datengenerierungsprozesses explizit modelliert werden.
Ich sehe mehrere Überlegungen, die gegen die Einführung eines generischen Korrekturfaktors sprechen, der beispielsweise auf dem Alter des Datensatzes basiert.
Erstens kann das Alter ein sehr schlechter Indikator für den Grad der Datenverschlechterung sein. Die Technologie der Vervielfältigung, Komprimierung und Konservierung sowie der Aufwand und die Sorgfalt, mit denen die korrekte Transkription überprüft wurde, sind anscheinend die wichtigen Faktoren. Einige alte Texte (z. B. die Bibel) sind seit Jahrhunderten ohne jegliche Verschlechterung erhalten geblieben. Ihr VHS-Beispiel ist zwar legitim, aber insofern ungewöhnlich, als jedes Duplizierungsereignis immer zu Fehlern führt und es keine einfachen Möglichkeiten gibt, nach Transkriptionsfehlern zu suchen und diese zu korrigieren - wenn Sie billige, weit verbreitete Technologien für die Duplizierung und Speicherung verwenden. Ich gehe davon aus, dass man durch Investitionen in teurere Systeme den Grad der eingeführten Fehler erheblich senken kann.
Dieser letzte Punkt ist allgemeiner: Datenerhaltung und -verbreitung sind wirtschaftliche Aktivitäten. Die Übertragungsqualität hängt stark von den eingesetzten Ressourcen ab. Diese Auswahl hängt wiederum von der wahrgenommenen Bedeutung der Daten für denjenigen ab, der die Vervielfältigung und Übertragung vornimmt.
Wirtschaftliche Überlegungen gelten auch für den Analysten. Es gibt immer mehr Faktoren, die Sie bei Ihrer Analyse berücksichtigen können. Unter welchen Bedingungen sind Datentranskriptionsfehler erheblich genug und wichtig genug, um berücksichtigt zu werden? Meine Vermutung ist: Solche Bedingungen sind nicht üblich. Wenn eine potenzielle Datenverschlechterung als wichtig genug angesehen wird, um sie in Ihrer Analyse zu berücksichtigen, ist es wahrscheinlich wichtig genug, sich die Mühe zu machen, den Prozess explizit zu modellieren, anstatt einen generischen "Korrektur" -Schritt einzufügen.
Schließlich besteht keine Notwendigkeit, einen solchen generischen Korrekturfaktor de novo zu entwickeln . Es gibt bereits eine umfangreiche statistische Theorie und Praxis für die Analyse von Datensätzen, für die Messfehler als wichtig angesehen werden.
Zusammenfassend: Es ist ein interessanter Gedanke. Ich denke jedoch nicht, dass dies zu Änderungen in der Analysepraxis führen sollte.
quelle