Da für datenwissenschaftliche Aufgaben zahlreiche Tools zur Verfügung stehen und es umständlich ist, alles zu installieren und ein perfektes System aufzubauen.
Gibt es ein Linux / Mac OS-Image mit Python, R und anderen Open-Source-Data-Science-Tools, das für die Benutzer sofort verfügbar ist? Ein Ubuntu oder ein leichtes Betriebssystem mit der neuesten Version von Python, R (einschließlich IDEs) und anderen installierten Open-Source-Datenvisualisierungstools ist ideal. Ich habe in meiner Google-Schnellsuche noch keine gefunden.
Bitte lassen Sie mich wissen, ob es welche gibt oder ob jemand von Ihnen eine für sich selbst erstellt hat. Ich gehe davon aus, dass einige Universitäten möglicherweise eigene VM-Images haben. Bitte teilen Sie solche Links.
Antworten:
Es gibt eine andere Wahl, die in letzter Zeit populär wurde: Docker ( https://www.docker.com ). Docker ist ein Container, mit dem Sie sehr einfach und schnell eine Arbeitsumgebung erstellen und verwalten können.
Hoffe das würde dir helfen.
quelle
Wenn Sie nach einer VM mit einer Reihe vorinstallierter Tools suchen, probieren Sie die Data Science Toolbox aus .
quelle
docker-machine regenerate-certs
ich die Zertifikate neu generierte. Ich hoffe, das hilft :)Während Docker- Bilder jetzt trendiger sind, finde ich die Docker- Technologie selbst für fortgeschrittene Benutzer nicht benutzerfreundlich. Wenn Sie mit der Verwendung nicht lokaler VM-Images einverstanden sind und Amazon Web Services (AWS) EC2 verwenden können , sollten Sie R-fokussierte Images für von Louis Aslett vorgefertigte Data Science-Projekte in Betracht ziehen. Die Images enthalten die neuesten Versionen von Ubuntu LTS , R und RStudio Server . Sie können auf sie zugreifen hier .
Neben den oben aufgelisteten Hauptkomponenten enthalten die Bilder auch viele nützliche Data-Science-Tools. Zum Beispiel unterstützen die Bilder LaTeX, ODBC, OpenGL, Git, optimierte numerische Bibliotheken und mehr.
quelle
Haben Sie Clouderas QuickStart VM ausprobiert ?:
Ich fand es sehr einfach, es auszuführen und es enthält Open-Source-Software wie Mahout und Spark .
quelle
Heute habe ich dieses Repository von https://github.com/sequenceiq/docker-spark verwendet und es mit Docker erstellt. Es ist ein Docker-Image-Funke, der auf dem Hadoop-Image desselben Besitzers basiert. Wenn Sie spark verwenden, gibt es eine Python-API namens pyspark. http://spark.apache.org/docs/latest/api/python/
quelle