Umgang mit großen Datenmengen in R - Tutorials, Best Practices usw.

11

Ich bin ein R-Noob, der verschiedene Arten von Analysen für große Datenmengen in R durchführen muss. Als ich mich auf dieser Site und anderswo umsah, schien es mir, dass es hier viele esoterische und weniger bekannte Probleme gibt - wie zum Beispiel Welches Paket soll wann verwendet werden, welche Transformationen gelten für die Daten (nicht) usw.

Ich frage mich nur, ob es ein Buch / Tutorial / Handbuch gibt, das all dies entmystifiziert und die Informationen systematisch präsentiert. Ich mache das lieber, als mich umzuschauen und Informationen aus verschiedenen Quellen online zu sammeln.

Danke im Voraus.

TeachMeR
quelle
2
Dies könnte ein Anfang sein: cran.r-project.org/web/views/HighPerformanceComputing.html
Roman Luštrik
1
Es kann hilfreich sein, einige Beispiele dafür zu nennen, welche Art von Analyse Sie durchführen möchten und wie Ihre Daten aussehen. Einfache Statistiken wie Mittelwerte oder komplexe Regressionen? 200 Variablen in tausend Zeilen oder 4 Variablen und 20 Millionen Zeilen?
Paul Hurleyuk
1
Wenn Sie wirklich "große" Datensätze haben, sollten Sie sich vielleicht relationale Datenbanken ansehen. Ein Ausgangspunkt hierfür kann das mit RNB gelieferte Handbuch "R-Datenimport / -export" sein. Das Handbuch ist auch über den Abschnitt "Handbücher" auf der R-Website verfügbar.
1
Zunächst wichtige Frage: Was meinst du mit groß und was willst du tun?
Fomite

Antworten: