Hosting-Optionen für öffentlich verfügbare Daten

12

Sie haben sich also entschlossen, die Idee reproduzierbarer Recherchen zu unterstützen, und möchten Ihre Daten online zur Verfügung stellen, damit sie angezeigt und verwendet werden können. Die Frage ist, wo Sie es hosten?

Meine erste Neigung ist natürlich der private Webspace, den ich auf einem Universitätsserver habe, aber diese Dinge sind eigentlich gar nicht so beständig - wenn ich gehe, bleibt das Verzeichnis eine sehr kurze Zeit offen, bevor es verschwindet. Kaum die richtige Einstellung, um Daten für die Menschen verfügbar zu halten, damit sie in Zukunft verwendet und bearbeitet werden können.

Benutzt du so etwas wie GitHub oder SourceForge? Oder eine andere Dienstleistung?

Bei den fraglichen Daten handelt es sich um die Ausgabe einiger Simulationen von sehr geringem Interesse - daher denke ich nicht, dass InfoChimps oder ein anderes öffentliches Datenarchiv die richtige Wahl sind. Dies ist weniger "Mit diesem Code können Sie Dinge lernen!" und mehr "Sie können Abbildung 3 in diesem Dokument replizieren".

Fomite
quelle
1
Relevant, möglicherweise doppelt: stats.stackexchange.com/questions/10045/…
Matt Parker
1
Absolut relevant - einige Details, die darauf hindeuten, warum ich es nicht für ein Duplikat hielt.
Fomite
@EpiGrad: Welche Art von Datum hast du im Sinn? Wenn es sich um einen Quellcode handelt, der sich auf Ihr Forschungsprojekt bezieht, können Sie ihn an Ihren arXiv- Preprint anhängen .
Piotr Migdal
@PiotrMigdal Idealerweise sollten die Daten mehrere Jahre lang gespeichert bleiben, damit die übliche Verbreitung von Papierzitaten usw. funktioniert. Ich würde es an einen arXiv- Preprint anhängen, wenn nur mein Fachgebiet es verwenden würde;)
Fomite
@EpiGrad Dann ist Open Data als Aspekt von Open Science vielleicht ein guter Ort zum Suchen - michaelnielsen.org/blog/open-science .
Piotr Migdal

Antworten:

4

Eine einfache Option ist Github .

Ich benutze es ein bisschen , um Daten und Datenanalyse-Code zu teilen. In dieser Frage sind einige gute Beispiele für andere aufgeführt, die Code und Daten auf der Site teilen .

Vorteile von Github

  • Einfach hochzuladen, sobald Sie sich mit git vertraut gemacht haben und warum nicht git für Ihre Versionskontrollanforderungen verwenden?
  • Sie können Gists für einfache Einzeldateien verwenden
  • Es ist für andere einfach, einzelne oder mehrere Dateien als Archiv herunterzuladen
  • Es hat eine gute Menge an freiem Speicherplatz
  • Der Quellcode kann im Internet durchsucht werden
  • und mehr...

Natürlich ist Github nicht perfekt für Daten. Ich sehe die Vorzüge, ein dauerhafteres institutionelles Repository oder ein anderes spezielles Tool für eine seriösere Archivierung zu verwenden.

Jeromy Anglim
quelle
1
Dies ist eigentlich die Lösung, die ich gewählt habe. Ein Teil des Problems mit einem institutionellen Repository besteht darin, dass meine Institution im Fluss ist und die Daten für eines der großen Data Warehouses nicht wirklich wichtig genug sind.
Fomite
4

Eine andere Möglichkeit scheint Dataverse zu sein , das als Service und als Open Source-Software verfügbar ist. Ich habe es aber nicht ausprobiert.

Karsten W.
quelle
2

Eine Möglichkeit für Akademiker ist die Verwendung eines digitalen Campus-Repository, das häufig von Campus-Bibliotheken gehostet wird (für mich ein logischer Ort für Datensätze, die Veröffentlichungen begleiten).

Ein beliebtes (freies) digitales Repository ist DSpace , das meines Wissens Datensätze hosten kann. Dies ist jedoch ein Service, den jemand in Ihrer Einrichtung durchführen muss.

MannyG
quelle