An meinem Arbeitsplatz arbeiten Mitarbeiter unterschiedlichster Disziplinen. Daher generieren wir Daten in vielen verschiedenen Formen. Folglich hat jedes Team ein eigenes System zum Speichern von Daten entwickelt. Einige verwenden Access- oder SQL-Datenbanken. Einige Teams sind (zu meinem Entsetzen) fast ausschließlich auf Excel-Tabellen angewiesen. Oft ändern sich die Datenformate von Projekt zu Projekt. In einigen Fällen ist es zu nett, es ein "System" zu nennen.
Die Probleme, die dies mit sich bringt, sind, dass ich neuen Code schreiben muss, um die Daten für jedes Projekt zu bereinigen, was teuer ist. Die manuelle Bearbeitung von Tabellenkalkulationen macht die Reproduzierbarkeit und Prüfung von Daten nahezu unmöglich. und noch schlimmer, es besteht die Möglichkeit, dass Daten verloren gehen oder falsch gemacht werden.
Ich hatte die Gelegenheit, diese Probleme mit einem Vorstandsmitglied des Unternehmens zu besprechen, und ich muss herausfinden, was ich ihm sagen soll. Ich glaube, ich habe ihn bereits davon überzeugt, dass wir ein Problem haben und dass es eine bessere Wissenschaft und Geldersparnis ermöglicht, wenn wir dies richtig machen. Die Frage ist: Was sollen wir anstreben und wie kommen wir dorthin?
Genauer:
Wie sollen wir Daten so speichern, dass wir sie von der Erstellung bis zur Veröffentlichung auf Papier verfolgen können? (Auf einem zentralen Server gespeicherte Datenbanken?)
Wie gehen Sie vor, um Datenbankformate zu standardisieren?
Gibt es gute Ressourcen, um Menschen darüber aufzuklären, wie sie mit Daten umgehen sollen? (In der Regel sind Arbeitshygieniker und Sprengstoffingenieure keine Daten-Nerds. Daher werden nicht-technische Inhalte bevorzugt.)
quelle
Antworten:
Überlegungen aus der Software-Welt lohnen sich. Insbesondere sollten Sie Folgendes einrichten: ein Versionskontroll-Repository und einen zentralen Datenbankserver.
Die Versionskontrolle hilft Ihnen wahrscheinlich bei ansonsten frei schwebenden Dateien wie Excel- und Textdateien usw. Dies kann jedoch auch Dateien einschließen, die mit Daten wie R, SAS usw. verknüpft sind. Die Idee ist, dass es ein System gibt, das Änderungen nachverfolgt Ihre Dateien geben Ihnen Aufschluss darüber, was wann passiert ist, und führen bei Bedarf einen Rollback zu einem Zeitpunkt in der Vergangenheit durch.
Wenn Sie bereits über SQL-Datenbanken verfügen, können Sie am besten einen zentralen Server einrichten und einen fähigen DBA einstellen . Der DBA hat die Aufgabe, die Integrität der Daten sicherzustellen und zu wahren. Ein Teil der Jobbeschreibung beinhaltet Dinge wie Backups und Tuning. Ein anderer Teil ist hier jedoch relevanter: die Steuerung des Dateneingangs, die Sicherstellung, dass Einschränkungen eingehalten werden, Zugriffsrichtlinien, um Schäden an den Daten zu vermeiden, das Einrichten von Ansichten zum Anzeigen benutzerdefinierter oder vereinfachter Datenformate usw. Implementierung einer Methodik rund um den Datenprozess. Selbst wenn Sie keinen echten DBA einstellen (die guten sind sehr schwer zu rekrutieren), können Sie mit einem zentralen Server darüber nachdenken, eine Art Methodik für Daten einzuführen.
quelle
Eine kostenlose Online-Ressource sind die statistischen Leitlinien für bewährte Verfahren des Statistical Services Center der University of Reading .
Speziell:
quelle
Ich denke, man muss sich zuerst fragen: Warum verwenden die Leute Excel, um Aufgaben zu erledigen, für die Excel nicht gemacht wurde?
1) Sie wissen bereits, wie man es benutzt. 2) Es funktioniert. Vielleicht auf unbeholfene Weise, aber es funktioniert und das ist, was sie wollen
Ich kopiere eine Reihe von Zahlen ein, drücke einen Knopf und ich habe eine Handlung. So einfach ist das.
Machen Sie sie also mit den Vorteilen vertraut, die sie durch die Verwendung zentralisierter Datensätze, ordnungsgemäßer Datenbanken (beachten Sie, dass Access NICHT einer von diesen ist) usw. haben können. Beachten Sie jedoch die beiden oben genannten Punkte: Sie müssen ein funktionsfähiges und benutzerfreundliches System einrichten.
Ich habe zu oft schlecht gemachte Systeme gesehen, die mich dazu gebracht haben, nicht zu Excel, sondern zu Stift und Papier zurückzukehren!
Nur als Beispiel haben wir ein schreckliches Bestellsystem, in dem ich arbeite.
Früher mussten wir ein Bestellformular ausfüllen, das eine Excel-Tabelle war, in die Sie den Namen des Produkts, die Menge, die Kosten usw. eingaben. Es summierte sich alles auf, fügte TVA usw. hinzu usw. Sie druckten es aus und gaben es an die sekretärin, die die bestellung machen würde und das war es. Ineffizient, aber es hat funktioniert.
Jetzt haben wir ein Online-Bestellsystem mit einer zentralen Datenbank und allem. Es ist ein Horror. Es sollte nicht länger als 10 Minuten dauern, bis ich ein verdammtes Formular ausgefüllt habe, da es sich um eindeutige Tastaturkürzel und die verschiedenen Kuriositäten der Software handelt. Und beachten Sie, dass ich ziemlich informatikbegeistert bin. Stellen Sie sich also vor, was mit Leuten passiert, die Computer nicht mögen ...
quelle
Ich unterstreiche alle bereits gegebenen Antworten, aber nennen wir eine Katze eine Katze: In vielen Arbeitsbereichen ist es kaum unmöglich, das Management davon zu überzeugen, dass Investitionen in "exotische" Softwarewerkzeuge (die für sie exotisch sind) notwendig sind, geschweige denn, jemanden einzustellen, der es schaffen könnte es auf und pflegen es. Ich habe einigen Kunden gesagt, dass sie von der Einstellung eines Statistikers mit umfassendem Hintergrundwissen über Software und Datenbanken in hohem Maße profitieren würden, aber "no can do" lautet die allgemeine Antwort.
So lange das nicht passieren wird, gibt es einige einfache Dinge, die Sie mit Excel tun können, um das Leben leichter zu machen. Und das erste davon ist ohne Zweifel die Versionskontrolle. Weitere Informationen zur Versionskontrolle mit Excel finden Sie hier .
Einige Dinge über die Verwendung von Excel
Menschen, die EXCEL verwenden, mögen die Formelfunktionen von EXCEL sehr oft. Dies ist jedoch nach meiner Erfahrung die wichtigste Fehlerquelle in EXCEL-Tabellen und die Ursache für Probleme beim Einlesen von EXCEL-Dateien. Ich lehne es ab, mit Blättern zu arbeiten, die Formeln enthalten.
Ich zwinge auch jeden, mit dem ich zusammenarbeite, die EXCEL-Blätter in einem einfachen Format auszuliefern, was bedeutet, dass:
Wenn die Daten immer eine allgemeine Struktur aufweisen, empfiehlt es sich möglicherweise, eine Vorlage mit zugrunde liegenden VB-Makros zu entwickeln, um Daten hinzuzufügen und den zu analysierenden Datensatz zu generieren. Dadurch wird im Allgemeinen vermieden, dass jeder Mitarbeiter auf ein eigenes "geniales" System zur Datenspeicherung zurückgreift, und Sie können Ihren Code in Abhängigkeit davon schreiben.
Wenn Sie jedoch alle davon überzeugen können, SQL (und ein Front-End für die Dateneingabe) zu verwenden, können Sie R direkt mit diesem verknüpfen. Dies erhöht die Leistung erheblich.
Datenstruktur und -verwaltung
In der Regel sollten die in Datenbanken (oder EXCEL-Tabellen, falls vorhanden) gespeicherten Daten das absolute Minimum sein. Das bedeutet, dass alle Variablen, die aus anderen Variablen berechnet werden können, nicht in der Datenbank enthalten sein sollten. Allerdings kann es manchmal nützlich sein, auch diese abgeleiteten oder transformierten Variablen zu speichern, wenn die Berechnungen mühsam sind und viel Zeit in Anspruch nehmen. Diese sollten jedoch in einer separaten Datenbank gespeichert werden, die gegebenenfalls mit der Originaldatenbank verknüpft ist.
Es sollte auch darüber nachgedacht werden, was als ein Fall (und damit als eine Zeile) angesehen wird. Beispielsweise neigen Menschen dazu, Zeitreihen zu erstellen, indem sie für jeden Zeitpunkt eine neue Variable erstellen. Während dies in einem EXCEL sinnvoll ist, erfordert das Einlesen dieser Daten ein ziemliches Umblättern der Datenmatrix. Gleiches gilt für den Vergleich von Gruppen: Es sollte einen Gruppenindikator und eine Antwortvariable geben, keine Antwortvariable für jede Gruppe. Auf diese Weise können auch Datenstrukturen standardisiert werden.
Ein letztes, auf das ich häufig stoße, ist die Verwendung verschiedener Metriken. Längen werden in Metern oder Zentimetern angegeben, Temperaturen in Celsius, Kelvin oder Fahrenheit, ... In jedem Frontend oder jeder Schablone sollte angegeben werden, in welcher Einheit die Variable gemessen wird.
Und selbst nach all diesen Dingen möchten Sie noch einen Datenkontrollschritt durchführen, bevor Sie tatsächlich mit der Analyse beginnen. Dies kann wiederum jedes Skript sein, das täglich (z. B. über Nacht) für neue Einträge ausgeführt wird und Probleme sofort kennzeichnet (außerhalb des Bereichs, falscher Typ, fehlende Felder, ...), damit sie so schnell wie möglich behoben werden können. Wenn Sie zu einem Eintrag zurückkehren müssen, der vor 2 Monaten erstellt wurde, um herauszufinden, was falsch ist und warum, sollten Sie einige gute "Sherlock-Fähigkeiten" erwerben, um diesen zu korrigieren.
meine 2 Cent
quelle
VisTrails: Ein Python-basiertes wissenschaftliches Workflow- und Provenienzsystem . Dieser Vortrag auf der PyCon 2010 hat einige gute Ideen. Hörenswert, auch wenn Sie nicht an VisTrails oder Python interessiert sind. Letztendlich denke ich, wenn Sie verlangen könnten, dass es eine eindeutige dokumentarische Möglichkeit gibt, die Daten zu reproduzieren. Und erfordern eine Validierung, die sie können.
Zitat:
quelle
Ich bin gerade auf diese Webseite gestoßen, die von ICPSR zu Datenverwaltungsplänen gehostet wird . Obwohl ich denke, dass die Ziele von ICPSR sich von denen Ihres Unternehmens unterscheiden werden (z. B. sind sie stark daran interessiert, dass die Daten ohne Verletzung der Vertraulichkeit ohne Weiteres verbreitet werden können), stelle ich mir vor, dass sie nützliche Informationen für Unternehmen enthalten. Insbesondere die Beratung zur Erstellung von Metadaten erscheint mir universell.
quelle
Bei viel kleineren Maßstäben habe ich die Verwendung von Dropbox zum Teilen / Synchronisieren einer Kopie der Datendateien (und Skripte und Ergebnisse) mit anderen Forschern / Mitarbeitern erlebt (ich habe hier darüber geschrieben ).
Das andere Tool, das ich verwendet habe, ist Google Docs zum Sammeln und Teilen von Daten (über das ich hier geschrieben habe )
quelle
Dropbox + Packrat ist gut für die gemeinsame Nutzung von Dateien mit Backup / Versionierung.
Anschließend laden Sie diese Dateien (nach automatisierter Kanonisierung / Massage) in eine Datenbank und führen die Analysen der bereinigten Daten durch. Stellen Sie die Skripte zur Automatisierung des Extract-Transform-Load-Zyklus unter Versionskontrolle (oder zumindest einen separaten Dropbox-Ordner mit der Option packrat ...).
Wenn Ihr Datenbankserver irgendwann abstürzt (oder beschädigt werden muss oder was auch immer), verfügen Sie über eine Pipeline, um Daten von benutzerfreundlichen (Excel, Webformulare usw.) zu analysefreundlichen (normalerweise normalisierten und eingeschränkten, immer bereinigten) zu verschieben.
Diese "ETL" -Phase stammt aus dem Data Warehousing. Und wenn Sie kein Online-Transaktionsverarbeitungssystem aufbauen, bauen Sie wahrscheinlich ein Data Warehouse auf. Nehmen Sie es an und nutzen Sie das, was die Menschen in den letzten 30 Jahren beim Bauen gelernt haben.
Habe Spaß.
quelle