Als «pyspark» getaggte Fragen

Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar.

178
Funkenleistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen...

111
Pyspark in Python-Shell importieren

Dies ist eine Kopie der Frage eines anderen in einem anderen Forum, die nie beantwortet wurde. Daher dachte ich, ich würde sie hier erneut stellen, da ich das gleiche Problem habe. (Siehe http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ich habe Spark ordnungsgemäß auf meinem Computer...

110
Laden Sie die CSV-Datei mit Spark

Ich bin neu in Spark und versuche, CSV-Daten aus einer Datei mit Spark zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir eine Liste der beiden ersten Spalten meiner Datei gibt,...

101
Spark Kill Laufende Anwendung

Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, in denen meinen anderen Anwendungen keine Ressource zugewiesen wird. Ich habe einige schnelle Nachforschungen angestellt und die Leute schlugen vor, YARN kill oder / bin / spark-class zu verwenden, um den Befehl zu beenden....

86
Wie setze ich die Python-Version des Treibers auf Funken?

Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende...

75
PySpark 2.0 Die Größe oder Form eines DataFrame

Ich versuche, die Größe / Form eines DataFrame in PySpark herauszufinden. Ich sehe keine einzige Funktion, die dies kann. In Python kann ich tun data.shape() Gibt es eine ähnliche Funktion in PySpark? Dies ist meine aktuelle Lösung, aber ich suche nach einem Element row_number = data.count()...