Wir hören oft von Projektmanagement- und Entwurfsmustern in der Informatik, aber seltener in der statistischen Analyse. Es scheint jedoch, dass ein entscheidender Schritt zur Gestaltung eines effektiven und dauerhaften statistischen Projekts darin besteht, die Dinge organisiert zu halten.
Ich befürworte oft die Verwendung von R und eine konsistente Organisation von Dateien in separaten Ordnern (Rohdatendatei, transformierte Datendatei, R-Skripte, Abbildungen, Notizen usw.). Der Hauptgrund für diesen Ansatz ist, dass es möglicherweise einfacher ist, Ihre Analyse später auszuführen (wenn Sie beispielsweise vergessen haben, wie Sie ein bestimmtes Diagramm erstellt haben).
Was sind die Best Practices für das statistische Projektmanagement oder welche Empfehlungen möchten Sie aus eigener Erfahrung abgeben? Dies gilt natürlich für jede statistische Software. ( eine Antwort pro Post, bitte )
Antworten:
Ich erstelle eine kurze Reihe von Richtlinien, die ich zu SO (wie von @Shane vorgeschlagen), Biostar (im Folgenden BS) und dieser SE gefunden habe. Ich habe mein Bestes getan, um das Eigentum an jedem Gegenstand anzuerkennen und die erste oder höchst bewertete Antwort auszuwählen. Ich habe auch eigene Dinge hinzugefügt und Elemente markiert, die für die [R] -Umgebung spezifisch sind.
Datenmanagement
Codierung
Analyse
Versionierung
Bearbeitung / Berichterstellung
Als Randnotiz bietet Hadley Wickham einen umfassenden Überblick über das R-Projektmanagement , einschließlich reproduzierbarer Beispiele und einer einheitlichen Datenphilosophie .
Schließlich bietet Oliver Kirchkamp in seinem R-orientierten Workflow zur statistischen Datenanalyse einen sehr detaillierten Überblick darüber, warum die Übernahme und Einhaltung eines bestimmten Workflows die Zusammenarbeit von Statistikern erleichtert und gleichzeitig die Datenintegrität und Reproduzierbarkeit der Ergebnisse gewährleistet. Es enthält außerdem einige Erläuterungen zur Verwendung eines Web- und Versionskontrollsystems. Für Stata-Benutzer ist der Arbeitsablauf der Datenanalyse mit Stata von J. Scott Long möglicherweise ebenfalls hilfreich.
quelle
Dies ist keine konkrete Antwort, aber Sie möchten sich möglicherweise die folgenden Fragen zum Stackoverflow ansehen:
Sie könnten auch an John Myles Whites aktuellem Projekt interessiert sein , um eine statistische Projektvorlage zu erstellen.
quelle
Dies überschneidet sich mit Shane's Antwort, aber meiner Meinung nach gibt es zwei Hauptpfeiler:
quelle
van Belle ist die Quelle für die Regeln erfolgreicher statistischer Projekte.
quelle
Nur meine 2 Cent. Ich habe Notepad ++ für nützlich befunden. Ich kann für jedes Projekt separate Skripte (Programmsteuerung, Datenformatierung usw.) und eine PAD-Datei verwalten. Beim Aufruf der PAD-Datei werden alle mit diesem Projekt verknüpften Skripten angezeigt.
quelle
Während die anderen Antworten großartig sind, möchte ich noch ein weiteres Gefühl hinzufügen: Vermeiden Sie die Verwendung von SPSS. Ich habe SPSS für meine Masterarbeit und jetzt für meinen regulären Job in der Marktforschung verwendet.
Während der Arbeit mit SPSS war es unglaublich schwierig, organisierten statistischen Code zu entwickeln, da SPSS nicht in der Lage ist, mehrere Dateien zu verarbeiten (Sie können zwar mehrere Dateien verarbeiten, dies ist jedoch nicht so schmerzlos wie R), da Sie keine Datasets speichern können zu einer Variablen - Sie müssen "Datensatz aktivieren x" - Code verwenden, was ein totaler Schmerz sein kann. Außerdem ist die Syntax klobig und es werden Abkürzungen empfohlen, wodurch der Code noch unleserlicher wird.
quelle
Jupyter-Notizbücher, die mit R / Python / Matlab / etc arbeiten, machen es überflüssig, sich zu merken, welches Skript eine bestimmte Zahl generiert. In diesem Beitrag wird beschrieben, wie Sie den Code und die Figur sauber nebeneinander halten. Wenn Sie alle Zahlen für ein Aufsatz- oder Arbeitskapitel in einem einzigen Notizbuch aufbewahren, ist der asccoiated Code sehr leicht zu finden.
Noch besser, weil Sie beispielsweise durch ein Dutzend Zahlen scrollen können, um die gewünschte zu finden. Der Code bleibt verborgen, bis er benötigt wird.
quelle