Was ist eine Konsistenzprüfung?

11

Mir wurde die Frage gestellt: "Haben Sie in Ihrer täglichen Arbeit eine Konsistenzprüfung durchgeführt?" während eines Telefoninterviews für eine Position als Biostatistiker. Ich weiß nicht, was ich antworten soll. Jede Information wird geschätzt.

Baisong
quelle

Antworten:

17

Zu der Liste von chl, die sich auf offene Datenverarbeitungsfehler konzentriert, würde ich Überprüfungen auf subtilere Fehler hinzufügen, um die folgenden Fragen und Probleme zu beantworten (in keiner bestimmten Reihenfolge angegeben und sicherlich unvollständig):

  1. Sind die Daten unter der Annahme einer Datenbankintegrität angemessen? Entsprechen sie in etwa den Erwartungen oder herkömmlichen Modellen oder würden sie jemanden überraschen, der mit ähnlichen Daten vertraut ist?

  2. Sind die Daten intern konsistent? Wenn zum Beispiel ein Feld die Summe von zwei anderen sein soll, oder?

  3. Wie vollständig sind die Daten? Sind dies die Angaben, die in der Planungsphase der Datenerfassung festgelegt wurden? Gibt es zusätzliche Daten, die nicht geplant waren? Wenn ja, warum sind sie dort?

  4. Die meisten Analysen modellieren die Daten implizit oder explizit auf sparsame Weise und beinhalten die Möglichkeit der Abweichung von der allgemeinen Beschreibung. Jedes dieser Modelle schlägt einen eigenen Weg vor, um Ausreißer zu identifizieren - die Daten, die erheblich von der allgemeinen Beschreibung abweichen. Wurden in jeder Phase der Untersuchung und Analyse Versuche unternommen, Ausreißer zu identifizieren und zu verstehen?

  5. In vielen Fällen ist es dem Analysten möglich, zusätzliche Daten zur Qualitätsprüfung und Einsicht in die Analyse einzubringen. Beispielsweise enthalten viele Datensätze in den Natur- und Sozialwissenschaften sowie in der Wirtschaft (zumindest implizit) Standortinformationen: Kennungen von Volkszählungsregionen; Namen von Ländern, Staaten, Landkreisen; Postleitzahlen des Kunden; und so weiter. Selbst wenn - vielleicht besonders wenn - die räumliche Korrelation kein Element der EDA oder Modellierung ist, kann der Analyst die Daten mit geografischen Darstellungen der Standorte verknüpfen und sie zuordnen, um nach Mustern und Ausreißern zu suchen.

  6. Einer der heimtückischsten Fehler, der sich in eine Analyse einschleichen kann, ist der Datenverlust. Wenn beim Extrahieren von Feldern, Zusammenfassen von Daten, Neuformatieren von Datasets usw. häufig ein oder zwei Elemente aus einem großen Dataset entfernt werden, gibt es nichts, was dies kennzeichnen könnte. Aber gelegentlich geht etwas Wichtiges verloren, wenn man es jemals entdeckt. Einfache Überprüfungen - wie das Vergleichen vor und nach Zählungen und Gesamtsummen von Daten - müssen routinemäßig durchgeführt werden, um sich vor solchen Dingen zu schützen.

  7. Ein weiterer heimtückischer Fehler ist mit der Typkonvertierung beim Digital Computing verbunden. Zum Beispiel musste ich kürzlich einen Schlüssel (zum Abgleichen von zwei Datendateien) aus einem Gleitkommafeld erstellen. Die Software (Stata) importierte das Feld als Float mit einfacher Genauigkeit in eine Datei, aber aus irgendeinem Grund als Float mit doppelter Genauigkeit in eine andere Datei. Meistens stimmten die Werte überein, in einigen Fällen jedoch aufgrund unterschiedlicher Rundungen nicht. Einige Daten gingen dadurch verloren. Ich habe dies nur aufgrund der Anwendung von (6) gefangen. Im Allgemeinen lohnt es sich, die Konsistenz der Felddatentypen zu überprüfen: Ints vs. Floats, Länge der Zeichenfolgen usw.

  8. Wenn zu irgendeinem Zeitpunkt der Analyse jemals eine Tabelle verwendet wird , erwarten Sie das Schlimmste. Das Problem ist, dass selbst ein streunender Tastendruck die Daten unsichtbar beschädigen kann. Wenn die Ergebnisse kritisch sind, lohnt es sich, weiter hin und her zu gehen - in die Tabelle zu exportieren, die Analyse durchzuführen, zurück zu importieren und systematisch zu vergleichen -, um sicherzustellen, dass nichts Ungewöhnliches passiert ist.

  9. Wenn eine Datenbank aktualisiert wird, lohnt es sich, eine Pause einzulegen und systematische, vollständige Vergleiche mit der alten durchzuführen, um sicherzustellen, dass dabei nichts verloren geht, geändert oder beschädigt wird.

  10. Auf einer höheren Ebene kann es sich bei jeder Durchführung einer Schätzung (z. B. einer Regression, einer PCA usw.) lohnen, diese mit einer anderen Technik durchzuführen, um die Empfindlichkeit oder sogar mögliche Fehler im Code zu überprüfen. Folgen Sie beispielsweise einer OLS-Regression durch eine Form robuster Regression und vergleichen Sie die Koeffizienten. Für wichtige Ergebnisse kann es beruhigend sein, die Antworten mit zwei (oder mehr) verschiedenen Softwareplattformen zu erhalten.

Vielleicht ist die beste Art der allgemeinen "Konsistenzprüfung", die jeder durchführen kann, alles früh und häufig grafisch darzustellen.

whuber
quelle
8

Ich nehme an, dies hat mit irgendeiner Form der Qualitätskontrolle der Datenintegrität zu tun , und insbesondere damit, dass Sie regelmäßig überprüfen, ob Ihre Arbeitsdatenbank nicht beschädigt ist (aufgrund eines Fehlers beim Übertragen, Kopieren oder nach einem Update oder einer Überprüfung der Integrität ). Dies kann auch bedeuten, dass sichergestellt wird, dass Ihre Zwischenberechnung doppelt überprüft wird (entweder manuell oder durch zusätzlichen Code oder Makros in Ihrer Statistiksoftware).

Weitere Informationen finden Sie hier: das ICH E6 (R1) -Referenzhandbuch über Richtlinien für gute klinische Praxis aus der EMEA, Richtlinien für gute klinische Laborpraxis oder die Toolbox für Forscher klinischer Forschungsstudien .

chl
quelle
1

zu den anderen guten Punkten hinzufügen

Bei Verwendung von Excel generiere ich immer eine Fallnummer als erste Spalte für jede Zeile, die dann in die letzte Spalte kopiert wird. Excel scheint sehr glücklich zu sein, nur ein paar Spalten gleichzeitig zu sortieren, was zu Chaos führt, wenn Sie nicht darauf achten, alle auszuwählen. Möglicherweise wissen Sie gar nicht, dass dies geschehen ist. Es ist eine nützliche Vorsichtsmaßnahme, überprüfen zu können, ob die Fallnummern in der ersten und letzten Spalte einer Zeile übereinstimmen.

Ich überprüfe immer die Ausreißer.

Für kritische Arbeiten wird die doppelte Eingabe von Daten durch separate Personen empfohlen.

Bei der Eingabe von Daten aus Papierdokumenten empfiehlt es sich, eine Referenzkennung zu verwenden, um auf das genaue Dokument und die Zeile zurückgreifen zu können, aus der die Eingabe abgeleitet wurde. Die Nummerierung der Dateneingabeformulare hilft dabei.

Bearbeiten - Ein weiteres Element - Ich weiß, dass das Bearbeiten von Tabellenkalkulationen mit Problemen behaftet ist, aber es ist viel einfacher, die Dateneingabe mit ihnen zu bereinigen. Ich behalte jedoch auch die unbearbeitete Originalversion bei, damit alle Änderungen überprüft oder im schlimmsten Fall wiederhergestellt werden können.

Robert Jones
quelle