Ich bin auf der Suche nach Informationen darüber, wie andere ihren R-Code und ihre Ausgabe organisieren.
Meine derzeitige Praxis besteht darin, Code in Blöcken in eine Textdatei als solche zu schreiben:
#=================================================
# 19 May 2011
date()
# Correlation analysis of variables in sed summary
load("/media/working/working_files/R_working/sed_OM_survey.RData")
# correlation between estimated surface and mean perc.OM in epi samples
cor.test(survey$mean.perc.OM[survey$Depth == "epi"],
survey$est.surf.OM[survey$Depth == "epi"]))
#==================================================
Anschließend füge ich die Ausgabe in eine andere Textdatei ein, normalerweise mit einigen Anmerkungen.
Die Probleme bei dieser Methode sind:
- Der Code und die Ausgabe sind nur nach Datum explizit verknüpft.
- Der Code und die Ausgabe sind chronologisch geordnet und können daher schwer zu suchen sein.
Ich habe darüber nachgedacht, ein Sweave-Dokument mit allem zu erstellen, da ich dann ein Inhaltsverzeichnis erstellen könnte, aber dies scheint mühsamer zu sein als die damit verbundenen Vorteile.
Lassen Sie mich wissen, welche effektiven Routinen Sie zur Organisation Ihres R-Codes und Ihrer Ausgabe haben, um die Analyse effizient zu durchsuchen und zu bearbeiten.
r
project-management
DQdlM
quelle
quelle
sink()
odercapture.output()
um Ihre Freunde zu sein. Reporting - Dienstprogramme, wie Hmisc , Sweave oder Gebräu wert sind (Ihr Punkt 1) zu berücksichtigen. Versionierungssysteme ( rcs , svn oder git ) könnten bei Punkt 2sink()
undcapture.output()
. Das ist großartig.Antworten:
Sie sind nicht die erste Person, die diese Frage stellt.
quelle
Ich für meinen Teil organisiere alles in 4 Dateien für jedes Projekt oder jede Analyse. (1) 'Code' Wo ich Textdateien von R-Funktionen speichere. (2) 'sql' Wo ich die Abfragen aufbewahre, die zum Sammeln meiner Daten verwendet werden. (3) 'dat' Wo ich Kopien (normalerweise csv) meiner rohen und verarbeiteten Daten aufbewahre. (4) 'rpt' Wo ich die Berichte speichere, die ich verteilt habe.
ALLE meine Dateien werden mit sehr ausführlichen Namen benannt, z. B. 'analysis_of_network_abc_for_research_on_modified_buffer_19May2011'.
Ich schreibe auch eine detaillierte Dokumentation im Voraus, in der ich die Hypothese, alle Annahmen, Einschluss- und Ausschlusskriterien sowie die Schritte, die ich unternehmen möchte, um mein Ergebnis zu erreichen, organisiere. All dies ist von unschätzbarem Wert für wiederholbare Nachforschungen und erleichtert meinen jährlichen Zielsetzungsprozess.
quelle
Jetzt, wo ich zu Sweave gewechselt habe, möchte ich nie mehr zurück. Insbesondere wenn Sie Plots als Ausgabe haben, ist es viel einfacher, den Code zu verfolgen, der zum Erstellen der einzelnen Plots verwendet wird. Es macht es auch viel einfacher, eine Kleinigkeit am Anfang zu korrigieren und durch die Ausgabe laufen zu lassen, ohne etwas manuell wiederholen zu müssen.
quelle
.RData
Datei, zur Eingabe durch das Sweave-Dokument. Es gibt jedoch auch einige großartige Optionen, um die Ergebnisse eines Codeblocks zu "cachen", damit er nicht erneut ausgeführt wird.Zum Strukturieren einzelner .R-Codedateien können Sie auch strcode verwenden , ein RStudio-Add-In, das ich erstellt habe, um Codetrennzeichen (mit optionalen Titeln) einzufügen und auf deren Grundlage Zusammenfassungen von Codedateien zu erhalten. Ich erkläre die Verwendung in diesem Blogeintrag ausführlicher .
quelle