Ich verwende seit einiger Zeit problemlos Textdateien, um meine Daten für R zu speichern. Für ein aktuelles Projekt werden die Dateigrößen jedoch zu groß, um Rohtextdateien verarbeiten zu können. Was ist die beste einfache Alternative?
12
R
). Das grundlegende Problem ist die Datenintegrität und nicht die Dateigröße: Wenn Sie eine Komprimierungsmethode vorschlagen, wird diese lediglich verdeckt und nicht gelöst.read.table
oderread.csv
scheitern stillschweigend? Sind Sie sich absolut sicher, dass nicht mehrere Dateien herumliegen und ein Codierungsfehler vorliegt (falscher Pfad, falscher Dateiname usw.)? Um Ideen zu korrigieren, möchten Sie uns möglicherweise auch eine Vorstellung davon geben, mit wie vielen Variablen und wie vielen Datensätzen Sie ungefähr zu tun haben.Antworten:
Der Standard-R-Ansatz ist die Verwendung von
save
undload
. Wenn Siesave
Ihren Datenrahmen nach dem Importieren und Kommentieren ausführen , können Sie dies angeben,compress=TRUE
und Sie werden von der Komprimierung und der schnellenload
Zeit begeistert sein. Dies funktioniert besonders gut, wenn die Objektgröße weniger als 400 MB beträgt. Ansonsten sehen Sie sich einige der obigen Vorschläge oder das leistungsstarkeff
Paket in R an.Das
Hmisc
Paket hat kleine HüllenSave
undLoad
um das oben Genannte noch schmerzloser zu machen:quelle
Schauen Sie sich SQLite3-Datenbanken an. Jede Datenbank ist eine Datei, sodass kein Datenbankserver eingerichtet werden muss.
So erstellen Sie eine Datenbank:
Zur Verwendung mit R https://gist.github.com/lynaghk/1062939
quelle
Es gibt eine Reihe von generischen Optionen.
Eine gute Komprimierung ist datenabhängig.
Meine Vermutung (und Sie haben es nicht angegeben, also muss ich raten) ist, dass Sie Tabellenkalkulations-ähnliche Daten in etwas anderem als csv (kommagetrennt) speichern möchten.
Eines meiner Lieblingsformate (ich liebe MatLab) ist hdf.
Hier sind R-bezogene Informationen zu HDF:
Es ist ein Supercomputing-Datenspeicherformat mit hoher Dichte. Es kann sehr schnell und effizient sein. Es ist auch (nicht überraschend) dichter als gezippter Text.
quelle
Mit den Standardfunktionen zum Lesen von Dateien in R können jetzt automatisch komprimierte Dateien gelesen werden. Führen Sie einfach eine einfache gzip-Komprimierung für Ihre Daten durch und lesen Sie sie wie immer, als ob es sich um reinen Text handelte.
quelle