Kann ich als Prüfer die Bereitstellung von angeforderten Daten und Code rechtfertigen, auch wenn das Journal dies nicht tut?

23

Da die Wissenschaft per Definition reproduzierbar sein muss, wird zunehmend erkannt, dass Daten und Code ein wesentlicher Bestandteil der Reproduzierbarkeit sind, wie dies vom Yale Roundtable für die gemeinsame Nutzung von Daten und Code erörtert wurde .

Wenn ich ein Manuskript für eine Zeitschrift überprüfe, für die keine gemeinsame Nutzung von Daten und Code erforderlich ist, kann ich anfordern, dass die Daten und der Code zur Verfügung gestellt werden

  1. zu mir zum Zeitpunkt der Überprüfung
  2. öffentlich zum Zeitpunkt der Veröffentlichung (die Zeitschrift unterstützt Beilagen)

auch, wie könnte ich eine solche Anfrage formulieren?


Update : Obwohl ich am allgemeinen Fall interessiert bin, besteht dieser spezielle Fall aus einer Metaanalyse mit allen zuvor veröffentlichten Daten, und der Code besteht aus einfachen linearen Modellen in SAS

Nebenbei bemerkt, die Fähigkeit, studienübergreifende Schlussfolgerungen zu ziehen (wie es das Ziel der Metaanalyse ist), würde erheblich verbessert, wenn mehr Studien Rohdaten liefern würden

Update 2 :

Ich habe die Daten und den Code vom Editor zum Zwecke der Überprüfung angefordert, der Editor erachtete die Anforderung als angemessen und ich habe das angeforderte Material (ausreichend, aber mit kryptischen Variablennamen, keinen Metadaten und wenigen Inline-Kommentaren) innerhalb eines Tages erhalten.

David LeBauer
quelle
3
Persönlich wäre ich mit Code unter so ziemlich allen Umständen einverstanden. Daten sind ein weiteres Problem. Sofern es nicht bereits öffentlich verfügbar ist, werde ich wahrscheinlich nicht die Erlaubnis haben, es mit jemandem zu teilen. Ich vermute, dies macht eine Datenanfrage unter vielen Umständen unangemessen.
Andy W
4
Dies klingt nach etwas, das Sie mit Ihrem Associate Editor oder Editor besprechen sollten. Wenn sie ihre Arbeit erledigen, sollten sie in der Lage sein, Sie zu beraten und wahrscheinlich als Kontaktstelle für die Autoren für solche Anfragen zu dienen.
Kardinal
1
Mir scheint, dass viele der Beispiele und die anschließende Diskussion auf Einzelfällen beruhen, die je nach Disziplin und den Daten, über die wir sprechen, sehr unterschiedlich sein können. Sicher, einige Situationen scheinen für die Verbreitung von Daten völlig vernünftig zu sein, aber das muss nicht alle Situationen charakterisieren. Aus dieser Frage wird sehr schnell ein Scherz!
Andy W
1
@Andy irgendwelche Vorschläge, wie man sich von einem Geschwätz fernhält? zB Unterscheidungen, die im OP gemacht werden sollten oder Änderungen an den Antworten (es ist immerhin CW).
Abe
1
Ich denke, dieses Formular hat eine Auswahlverzerrung :-). Die meisten von uns sind hier, weil die meisten von uns die OP-Idee auf irgendeine Weise unterstützen.
Suncoolsu

Antworten:

7

Soweit Sie als Prüfer Daten erhalten, haben Sie Anspruch darauf, wenn Sie diese benötigen, um Ihre Prüfung ordnungsgemäß abzuschließen. Weitere Prüfer sollten nach Daten fragen und diese bewerten. Viele Zeitschriften haben Richtlinien, nach denen sie möglicherweise den Daten- und Analysecode für Überprüfungszwecke benötigen.

Die Verfügbarkeit zum Zeitpunkt der Veröffentlichung ist mir nicht klar. Es scheint, dass Sie sagen, dass Sie das Problem erzwingen möchten, dass die Daten als Bedingung für die Veröffentlichung öffentlich verfügbar gemacht werden. Das ist eine schlechte Idee, wenn es nicht bereits eine Journalrichtlinie ist. Sie machen die Veröffentlichung zu einem unfairen Ziel. Sie gingen davon aus, dass dies keine Bedingung sein würde und dass Sie oder der Herausgeber das Spiel ändern sollten.

Viele öffentlich finanzierte Forscher wissen nicht, dass sie ihre Daten öffentlich zugänglich machen müssen. Beispielsweise enthalten die meisten NIH-Zuschüsse Klauseln, in denen der Forscher seine Daten vorlegen muss. Die meisten staatlichen Stellen, die Zuschüsse gewähren, haben Klauseln zum Datenaustausch, die den Forscher dazu zwingen, das zu teilen, was er findet (vielleicht ist die Gewalt ein bisschen groß, da es sehr schwierig ist, einen Zuschuss darüber zu verlieren, vielleicht aber auch die Erneuerung zu verlieren). Die Öffentlichkeit hat für die Daten bezahlt, daher hat die Öffentlichkeit ein Recht darauf - im Falle menschlicher Forschung ein Recht darauf, anonymisiert zu werden.

Einige der teuersten und sensibelsten Daten, die für die Erfassung von menschlichen FMRI-Daten anfallen, werden auch am häufigsten öffentlich zugänglich gemacht. Nicht nur PLoS, sondern auch große Fachzeitschriften erfordern die Übermittlung der Daten und die Führung einer öffentlich zugänglichen Datenbank. Ich denke, dies sagt viel für Menschen aus, die aus Kostengründen (es ist sehr teuer) und aus Gründen der Privatsphäre Einwände erheben (es handelt sich um Humandaten aus kleinen Studien und manchmal einzigartigen klinischen Populationen, die sehr sensibel sein könnten). Das sind Gründe, die diese Daten für die Öffentlichkeit wertvoller machen. Forscher, die solche Daten zurückhalten, tun denjenigen, die sie gekauft haben (allen), einen schlechten Dienst und benötigen eine Einweisung in ihre Zuständigkeiten außerhalb ihres kleinen Labor- und Publikationswettbewerbs.

Wenn die Forschung privat finanziert wurde, wirklich privat finanziert, dann viel Glück.

John
quelle
Ich stimme den meisten Aussagen darin zu - es gibt bereits Anforderungen, Daten - normalerweise an andere qualifizierte Forscher - in von NIH finanzierten Zuschüssen und dergleichen offenzulegen. Ich denke jedoch, dass die Ausweitung auf eine Ad-hoc-Anforderung für Veröffentlichungen die Rolle eines Prüfers bei weitem übersteigt.
Fomite
1
(+1) Durchdachte, gut formulierte Antwort. Eine Sache zu beachten ist, dass diese Seite ein ziemlich internationales Publikum hat. Ich würde mir wünschen, dass mehr Forscher eine kollaborative Sicht auf ihre Forschung und Daten einnehmen, selbst wenn es kein NIH oder eine andere Organisation gibt, die ihnen den Arm verdreht.
Kardinal
EpiGrad, falls es aus der Antwort nicht klar hervorgeht, hatte ich das Gefühl, dass eine Ad-hoc-Anforderung für die Veröffentlichung nicht nur die Grenzen des Rezensenten, sondern auch des Herausgebers überschritten hat.
John
Kardinal, danke für das Kompliment. Danke auch für die Erinnerung. Ich versuche immer daran zu denken, dass die Seite international ist. So groß wie NIH ist, ist es nicht in meinem Land. ;)
John
@John. Ja - ich habe gerade vergessen, +1 zu setzen, als ich dir zustimmte :)
Fomite
6

Die beiden Situationen getrennt angehen:

Als Rezensent: Ja, ich glaube, Sie hätten Grund, nach den Daten oder dem Code zu fragen. Aber wenn ich Sie wäre, würde ich mich darauf vorbereiten, Dinge wie reduzierten Code oder einen Teil der Daten zu sehen. Die Leute implementieren zukünftige Forschungen, über die in diesem Artikel nicht ständig in ihrem Code berichtet wird, und Sie haben keinen Anspruch auf diesen Code. Da ich hauptsächlich biomedizinische Forschung betreibe, wäre ich auch bereit, mich mit einigen recht restriktiven Vereinbarungen zur Datennutzung zu befassen.

In der Zeitschrift selbst: Nein. Wenn ein Forscher meine Ergebnisse reproduzieren möchte, kann er sich an mich wenden, um nach Code zu fragen - deshalb haben wir entsprechende Autoren. Für Daten absolut nicht, unter keinen Umständen. Meine Daten unterliegen IRB- und Vertraulichkeitsvereinbarungen - sie werden nicht nur veröffentlicht. Wenn ich willAls öffentlich zugänglicher Datensatz könnte ich einen Datensatz mit ähnlichen Eigenschaften simulieren (dh die "Faux-Mesa" -Netzwerkdaten, die in einem der Netzwerkpakete für R verfügbar sind), aber als Prüfer müssen Sie dies nicht erzwingen . Wenn es eine journalweite Anforderung ist, dann wussten die Autoren, dass ihre Daten / ihr Code bei der Einreichung öffentlich sein würden, aber wenn nicht, dann nicht. Ihre Aufgabe ist es, die Qualität des Papiers selbst zu bewerten (daher bin ich für die Zwecke der Überprüfung damit einverstanden) und nicht Ihre Fähigkeit zu nutzen, zur Akzeptanz / Ablehnung des Papiers beizutragen, um einen im Wesentlichen philosophischen / politischen Punkt voranzutreiben außerhalb des Umfangs der Zeitschrift.

Bestenfalls würde ich ein "Ich würde die Autoren nachdrücklich auffordern, ihren Code und ihre Daten zur Verfügung zu stellen, wo dies möglich ist" in Ihren Kommentaren einfügen, aber ich würde es nicht stärker formulieren und ich würde es nicht einfügen die formale Liste der "Dinge, von denen ich denke, dass sie repariert werden müssen, bevor sie das Tageslicht erblicken".

Fomite
quelle
Ich habe gerade Ihre Änderungen bemerkt: In diesem Fall ist die Antwort für das Papier ein stärkeres "Nein" - vorausgesetzt, das Papier enthält Zitate. Wenn der Punkt der Anfrage "reproduzierbare Forschung" ist und die Daten öffentlich auffindbar sind, gibt es keinen Grund, warum ein Forscher, der die Ergebnisse bestätigen möchte, dies nicht selbst tun könnte. Wenn es darum geht, die Wissenschaft tatsächlich zu evaluieren, anstatt nur zu demonstrieren, dass auch Sie auf "Ausführen" klicken können, um dieselben Ergebnisse zu erhalten, ist es Teil der Überprüfung eines Ergebnisses, den Such- und Abstraktionsprozess in der Literaute selbst zu durchlaufen.
Fomite
Damit die Forschung reproduzierbar ist, sollte die Version des Codes und der Daten, die in der Analyse verwendet werden, verfügbar gemacht werden, und Code, der nicht in der Analyse verwendet wird, ist nicht zu erwarten (oder muss relevant sein).
David LeBauer
@EpiGrad: In gewisser Hinsicht stimme ich diesem starken Nein nicht ganz zu . Keith Baggerly hat in letzter Zeit zu diesem Thema evangelisiert und einige interessante Beobachtungen gemacht. Siehe zum Beispiel KA Baggerly und KR Coombes, Ableiten von Chemosensitivität aus Zelllinien: Forensische Bioinformatik und reproduzierbare Forschung in der Hochdurchsatzbiologie , Ann. Appl. Stat. Bd. 3, Nr. 4, S. 1309-1334. Es gibt auch eine arxiv-Version .
Kardinal
Ich kenne nur sehr wenige von Zuschüssen finanzierte Forscher, die Probleme mit dem IRB und der Vertraulichkeit haben, die die Veröffentlichung ordnungsgemäß anonymisierter Daten wirklich einschränken. Wenn Sie in dieser Situation sind, ist es ein ziemlich seltener Fall.
John
@EpiGrad Ich frage auch das starke Nein . Die Methoden, die verwendet werden, um in einer Metaanalyse von Rohdaten zu abgeleiteten Metriken zu gelangen, erfordern häufig eine große Anzahl von Annahmen, die sich auf Unterschiede in der Methodik und Interpretation beziehen, die auf der Ebene einer einzelnen Studie auftreten. In diesem Fall sind über 200 Studien vertreten. Die für die Rekonstruktion des Datensatzes erforderliche Zeit wäre daher unerschwinglich - und würde letztendlich das endgültige Ziel des Fortschritts der Wissenschaft beeinträchtigen.
David LeBauer
5

Wie John sagt, sollte die Verfügbarkeit von Daten für Prüfer ein Kinderspiel sein. Eine sorgfältige Überprüfung sollte die Replikation der Analyse einschließen und als solche den Zugriff auf die Daten erfordern.

In Bezug auf die öffentliche Verfügbarkeit der Daten nach der Veröffentlichung würde ich sagen, dass der Kampf eher mit der Zeitschrift als mit einer bestimmten Einreichung geführt werden sollte.

Allgemeiner wird den Finanzierungsagenturen und IRB zunehmend bewusst, dass der Datenaustausch sowohl eine wissenschaftlich als auch ethisch notwendige Komponente der Forschung ist. Durch Erhöhen der Verfügbarkeit für eine erneute Analyse, die zu neuen Ergebnissen korrekter fehlerhafter Berichte führen kann, erhöht die gemeinsame Datennutzung den potenziellen Nutzen für die Forschung, wodurch der Kosten-Nutzen-Kompromiss zum Vorteil der Forschungsteilnehmer geändert wird. Natürlich müssen die Teilnehmer über die Möglichkeit informiert werden, dass ihre Daten weitergegeben werden, und es müssen Sicherheitsvorkehrungen getroffen werden, um ein erhöhtes Identifikationsrisiko für die Teilnehmer zu vermeiden. Diese können jedoch in den meisten Fällen erreicht werden. In meiner eigenen Forschung versichere ich den Teilnehmern (und meinem IRB), dass (1) Daten in einem stark verschlüsselten Format gespeichert werden (das mit dem Fortschritt der Entschlüsselungstechnologie aktualisiert wird).

Mike Lawrence
quelle
1

Ich habe noch keine Erfahrung damit, aber es scheint mir, dass Sie im Rahmen Ihrer eigenen Sorgfalt bei der Überprüfung ihrer Ergebnisse auf # 1 bestehen können. Ich verstehe allerdings nicht, wie Sie auf # 2 bestehen können.

Wayne
quelle