So führen Sie eine pyspark-Anwendung in der Windows 8-Eingabeaufforderung aus

8

Ich habe ein Python-Skript mit Spark Context geschrieben und möchte es ausführen. Ich habe versucht, IPython in Spark zu integrieren, aber das konnte ich nicht. Also habe ich versucht, den Funkenpfad [Installationsordner / bin] als Umgebungsvariable festzulegen und den Befehl spark-submit in der Eingabeaufforderung cmd aufgerufen. Ich glaube, dass es den Funkenkontext findet, aber es erzeugt einen wirklich großen Fehler. Kann mir bitte jemand bei diesem Problem helfen?

Pfad der Umgebungsvariablen: C: /Users/Name/Spark-1.4; C: /Users/Name/Spark-1.4/bin

Danach in der cmd-Eingabeaufforderung: spark-submit script.py

Geben Sie hier die Bildbeschreibung ein

SRS
quelle
Hilfreiche Post
Dawny33

Antworten:

3

Ich bin ziemlich neu in Spark und habe herausgefunden, wie ich mich in IPython unter Windows 10 und 7 integrieren kann. Überprüfen Sie zunächst Ihre Umgebungsvariablen auf Python und Spark. Hier sind meine: SPARK_HOME: C: \ spark-1.6.0-bin-hadoop2.6 \ Ich verwende Enthought Canopy, daher ist Python bereits in meinen Systempfad integriert. Starten Sie als Nächstes Python oder IPython und verwenden Sie den folgenden Code. Wenn Sie eine Fehlermeldung erhalten, überprüfen Sie, was Sie für 'spark_home' erhalten. Ansonsten sollte es gut laufen.

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

pySpark auf IPython

Jon
quelle
1

Überprüfen Sie, ob dieser Link Ihnen helfen kann.

Programmierer ohne Titel
quelle
Ich habe das schon einmal verfolgt. Funktioniert nicht
SRS
1

Johnnyboycurtis Antwort funktioniert für mich. Wenn Sie Python 3 verwenden, verwenden Sie den folgenden Code. Sein Code funktioniert nicht in Python 3. Ich bearbeite nur die letzte Zeile seines Codes.

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))
user2543622
quelle
Ich habe die von "user2543622" bereitgestellten Codes erfolgreich verwendet und kürzlich ein Problem mit der folgenden Fehlermeldung festgestellt. Weißt du was schief gelaufen ist? Vielen Dank. Ausnahme: Der Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer
gesendet wurde
0

Schließlich habe ich das Problem behoben. Ich musste den Speicherort pyspark in der Variablen PATH und den Speicherort py4j-0.8.2.1-src.zip in der Variablen PYTHONPATH festlegen.

SRS
quelle