Ich fand, dass die einfachste Lösung unter Windows darin besteht, aus dem Quellcode zu erstellen.
Sie können diesem Handbuch ziemlich genau folgen: http://spark.apache.org/docs/latest/building-spark.html
Laden Sie Maven herunter, installieren Sie es und stellen Sie es MAVEN_OPTS
auf den im Handbuch angegebenen Wert ein.
Wenn Sie jedoch nur mit Spark herumspielen und es nicht benötigen, um unter Windows ausgeführt zu werden, weil auf Ihrem eigenen Computer Windows ausgeführt wird, empfehle ich dringend, Spark auf einer virtuellen Linux-Maschine zu installieren. Der einfachste Weg, um loszulegen, besteht wahrscheinlich darin, die vorgefertigten Bilder von Cloudera oder Hortonworks herunterzuladen und entweder die mitgelieferte Version von Spark zu verwenden oder Ihre eigenen aus dem Quellcode oder die kompilierten Binärdateien zu installieren, die Sie von der Spark-Website erhalten können.
Schritte zum Installieren von Spark im lokalen Modus:
Installieren Sie Java 7 oder höher . Um die Java-Installation zu testen, öffnen Sie die Eingabeaufforderung
java
und drücken Sie die Eingabetaste. Wenn Sie eine Nachricht erhalten, müssen'Java' is not recognized as an internal or external command.
Sie Ihre Umgebungsvariablen konfigurierenJAVA_HOME
undPATH
auf den Pfad von jdk verweisen.Laden Sie Scala herunter und installieren Sie es .
Stellen Sie
SCALA_HOME
inControl Panel\System and Security\System
GOTO "Adv Systemeinstellungen" und fügen Sie%SCALA_HOME%\bin
in PATH - Variable in Umgebungsvariablen.Installieren Sie Python 2.6 oder höher über den Python-Download-Link .
Laden Sie SBT herunter . Installieren Sie es und legen Sie es
SBT_HOME
als Umgebungsvariable mit dem Wert as fest<<SBT PATH>>
.Download
winutils.exe
von HortonWorks Repo oder Git Repo . Da wir keine lokale Hadoop-Installation unter Windows haben, müssen wir sie herunterladenwinutils.exe
und in einembin
Verzeichnis unter einem erstelltenHadoop
Home-Verzeichnis ablegen. InHADOOP_HOME = <<Hadoop home directory>>
Umgebungsvariable setzen.Wir werden ein vorgefertigtes Spark-Paket verwenden. Wählen Sie daher ein vorgefertigtes Spark-Paket für den Hadoop Spark-Download . Laden Sie es herunter und extrahieren Sie es.
Festlegen
SPARK_HOME
und Hinzufügen der%SPARK_HOME%\bin
PATH-Variablen in Umgebungsvariablen.Führen Sie den Befehl aus:
spark-shell
Öffnen Sie
http://localhost:4040/
in einem Browser, um die SparkContext-Web-Benutzeroberfläche anzuzeigen.quelle
Sie können spark von hier herunterladen:
http://spark.apache.org/downloads.html
Ich empfehle Ihnen diese Version: Hadoop 2 (HDP2, CDH5)
Seit Version 1.0.0 gibt es .cmd- Skripte, mit denen Spark in Windows ausgeführt werden kann.
Packen Sie es mit 7zip oder ähnlichem aus.
Zum Starten können Sie /bin/spark-shell.cmd --master local [2] ausführen.
Um Ihre Instanz zu konfigurieren, folgen Sie diesem Link: http://spark.apache.org/docs/latest/
quelle
Sie können Spark auf folgende Weise einrichten:
Es gibt jedoch verschiedene Möglichkeiten , Spark aus dem Quellcode zu erstellen .
Zuerst habe ich versucht, eine Spark-Quelle mit SBT zu erstellen, aber das erfordert Hadoop. Um diese Probleme zu vermeiden, habe ich eine vorgefertigte Version verwendet.
Anstelle von Source habe ich die Prebuilt-Version für die Hadoop 2.x-Version heruntergeladen und ausgeführt. Dazu müssen Sie Scala als Voraussetzung installieren.
Ich habe hier alle Schritte zusammengefasst:
So führen Sie Apache Spark unter Windows 7 im Standalone-Modus aus
Hoffe es wird dir helfen .. !!!
quelle
Der Versuch, mit spark-2.xx zu arbeiten, das Erstellen von Spark-Quellcode hat bei mir nicht funktioniert.
Obwohl ich Hadoop nicht verwenden werde, habe ich den vorgefertigten Spark mit eingebettetem Hadoop heruntergeladen:
spark-2.0.0-bin-hadoop2.7.tar.gz
Zeigen Sie auf SPARK_HOME im extrahierten Verzeichnis und fügen Sie Folgendes hinzu
PATH
:;%SPARK_HOME%\bin;
Laden Sie die ausführbaren Winutils aus dem Hortonworks-Repository oder von den Winutils der Amazon AWS-Plattform herunter .
Erstellen Sie ein Verzeichnis, in dem Sie die ausführbare Datei winutils.exe ablegen. Zum Beispiel C: \ SparkDev \ x64. Fügen Sie die Umgebungsvariable hinzu,
%HADOOP_HOME%
die auf dieses Verzeichnis verweist, und fügen Sie%HADOOP_HOME%\bin
sie dann PATH hinzu.Erstellen Sie über die Befehlszeile das Verzeichnis:
Fügen Sie mit der heruntergeladenen ausführbaren Datei dem von Ihnen erstellten Dateiverzeichnis vollständige Berechtigungen hinzu, verwenden Sie jedoch den Unixian-Formalismus:
Geben Sie die folgende Befehlszeile ein:
Die Eingabe der Scala-Befehlszeile sollte automatisch angezeigt werden.
Anmerkung: Sie müssen Scala nicht separat konfigurieren. Es ist auch eingebaut.
quelle
Hier sind die Korrekturen, mit denen es unter Windows ausgeführt werden kann, ohne dass alles neu erstellt werden muss - beispielsweise, wenn Sie keine aktuelle Version von MS-VS haben. (Sie benötigen einen Win32 C ++ - Compiler, können MS MS Community Edition jedoch kostenlos installieren.)
Ich habe dies mit Spark 1.2.2 und mahout 0.10.2 sowie mit den neuesten Versionen im November 2015 versucht. Es gibt eine Reihe von Problemen, einschließlich der Tatsache, dass der Scala-Code versucht, ein Bash-Skript auszuführen (mahout / bin / mahout) was natürlich nicht funktioniert, die sbin-skripte wurden nicht auf windows portiert und die winutils fehlen, wenn hadoop nicht installiert ist.
(1) Installieren Sie scala und entpacken Sie spark / hadoop / mahout im Stammverzeichnis von C: unter den jeweiligen Produktnamen.
(2) Benennen Sie \ mahout \ bin \ mahout in mahout.sh.was um (wir werden es nicht brauchen)
(3) Kompilieren Sie das folgende Win32 C ++ - Programm und kopieren Sie die ausführbare Datei in eine Datei mit dem Namen C: \ mahout \ bin \ mahout (das ist richtig - kein .exe-Suffix wie bei einer ausführbaren Linux-Datei)
(4) Erstellen Sie das Skript \ mahout \ bin \ mahout.bat und fügen Sie den folgenden Inhalt ein, obwohl die genauen Namen der Jars in den _CP-Klassenpfaden von den Versionen von spark und mahout abhängen. Aktualisieren Sie alle Pfade gemäß Ihrer Installation. Verwenden Sie 8.3 Pfadnamen ohne Leerzeichen. Beachten Sie, dass Sie in den Klassenpfaden hier keine Platzhalter / Sternchen verwenden können.
Der Name der Variablen MAHOUT_CP sollte nicht geändert werden, da im C ++ - Code darauf verwiesen wird.
Natürlich können Sie den Code auskommentieren, der den Spark-Master und -Arbeiter startet, da Mahout Spark nach Bedarf ausführt. Ich habe es einfach in den Batch-Job eingefügt, um Ihnen zu zeigen, wie Sie es starten können, wenn Sie Spark ohne Mahout verwenden möchten.
(5) Das folgende Tutorial ist ein guter Anfang:
Sie können die Mahout Spark-Instanz unter folgender Adresse aufrufen:
quelle
Die Anleitung von Ani Menon (thx!) Hat unter Windows 10 fast für mich funktioniert. Ich musste nur eine neuere winutils.exe von diesem Git (derzeit hadoop-2.8.1) herunterladen: https://github.com/steveloughran/winutils
quelle
Hier sind sieben Schritte, um spark unter Windows 10 zu installieren und unter Python auszuführen:
Schritt 1: Laden Sie die gz-Datei spark 2.2.0 tar (tape Archive) über diesen Link in einen beliebigen Ordner F herunter - https://spark.apache.org/downloads.html . Entpacken Sie es und kopieren Sie den entpackten Ordner in den gewünschten Ordner A. Benennen Sie den Ordner spark-2.2.0-bin-hadoop2.7 in spark um.
Der Pfad zum Spark-Ordner sei C: \ Users \ Desktop \ A \ spark
Schritt 2: Laden Sie die Datei hardoop 2.7.3 tar gz über diesen Link in denselben Ordner F herunter - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Entpacken Sie es und kopieren Sie den entpackten Ordner in denselben Ordner A. Benennen Sie den Ordnernamen von Hadoop-2.7.3.tar in hadoop um. Der Pfad zum Hadoop-Ordner sei C: \ Users \ Desktop \ A \ Hadoop
Schritt 3: Erstellen Sie eine neue Editor-Textdatei. Speichern Sie diese leere Editor-Datei als winutils.exe (mit Dateityp: Alle Dateien). Kopieren Sie diese O KB-Datei winutils.exe in Ihren bin-Ordner in spark - C: \ Users \ Desktop \ A \ spark \ bin
Schritt 4: Jetzt müssen wir diese Ordner zur Systemumgebung hinzufügen.
4a: Erstellen einer Systemvariablen (keine Benutzervariable, da die Benutzervariable alle Eigenschaften der Systemvariablen erbt) Variablenname: SPARK_HOME Variablenwert: C: \ Users \ Desktop \ A \ spark
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Sie sehen mehrere Pfade. Löschen Sie keinen der Pfade. Fügen Sie diesen Variablenwert hinzu -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Erstellen Sie eine Systemvariable
Variablenname: HADOOP_HOME Variablenwert: C: \ Users \ Desktop \ A \ hadoop
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Fügen Sie diesen Variablenwert hinzu -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Erstellen einer Systemvariablen Variablenname: JAVA_HOME Durchsuchen Sie Java in Windows. Klicken Sie mit der rechten Maustaste und klicken Sie auf Dateispeicherort öffnen. Sie müssen erneut mit der rechten Maustaste auf eine der Java-Dateien klicken und auf den Speicherort der geöffneten Datei klicken. Sie verwenden den Pfad dieses Ordners. ODER Sie können nach C: \ Programme \ Java suchen. Meine auf dem System installierte Java-Version ist jre1.8.0_131. Variablenwert: C: \ Programme \ Java \ jre1.8.0_131 \ bin
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Fügen Sie diesen Variablenwert hinzu -; C: \ Programme \ Java \ jre1.8.0_131 \ bin
Schritt 5: Öffnen Sie die Eingabeaufforderung und wechseln Sie in Ihren Spark Bin-Ordner (geben Sie cd C: \ Users \ Desktop \ A \ spark \ bin ein). Typ Funkenschale.
Es kann einige Zeit dauern und einige Warnungen geben. Schließlich wird es willkommen sein, Version 2.2.0 zu funken
Schritt 6: Geben Sie exit () ein oder starten Sie die Eingabeaufforderung neu und wechseln Sie erneut in den Spark Bin-Ordner. Typ pyspark:
Es werden einige Warnungen und Fehler angezeigt, die jedoch ignoriert werden. Es klappt.
Schritt 7: Ihr Download ist abgeschlossen. Wenn Sie Spark direkt über die Python-Shell ausführen möchten, gehen Sie wie folgt zu Scripts in Ihrem Python-Ordner und geben Sie ein
in der Eingabeaufforderung.
In Python-Shell
Importieren Sie die erforderlichen Module
Wenn Sie die Schritte zum Importieren und Initialisieren von findspark überspringen möchten, befolgen Sie bitte die Anweisungen zum Importieren von pyspark in die Python-Shell
quelle
Hier ist ein einfaches Mindestskript, das von jeder Python-Konsole ausgeführt werden kann. Es wird davon ausgegangen, dass Sie die Spark-Bibliotheken, die Sie heruntergeladen haben, in C: \ Apache \ spark-1.6.1 extrahiert haben.
Dies funktioniert unter Windows, ohne etwas zu erstellen, und löst Probleme, bei denen sich Spark über rekursives Beizen beschwert.
quelle
Cloudera und Hortonworks sind die besten Tools, um mit HDFS in Microsoft Windows zu starten. Sie können auch VMWare oder VBox verwenden, um die virtuelle Maschine zu initiieren und die Erstellung Ihres HDFS und Spark, Hive, HBase, Pig, Hadoop mit Scala, R, Java, Python einzurichten.
quelle