Als «apache-spark» getaggte Fragen

133
Apache Spark: map vs mapPartitions?

Was ist der Unterschied zwischen einem RDD map und einer mapPartitionsMethode? Und verhält flatMapsich wie mapoder wie mapPartitions? Vielen Dank. (bearbeiten) dh was ist der Unterschied (entweder semantisch oder in Bezug auf die Ausführung) zwischen def map[A, B](rdd: RDD[A], fn: (A => B))...

127
So legen Sie den Apache Spark Executor-Speicher fest

Wie kann ich den für Apache Spark Executor-Knoten verfügbaren Speicher erhöhen? Ich habe eine 2-GB-Datei, die zum Laden in Apache Spark geeignet ist. Ich führe momentan Apache Spark auf einem Computer aus, sodass sich Treiber und Executor auf demselben Computer befinden. Das Gerät verfügt über 8 GB...

124
Wie drucke ich den Inhalt von RDD?

Ich versuche, den Inhalt einer Sammlung auf der Spark-Konsole zu drucken. Ich habe einen Typ: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Und ich benutze den Befehl: scala> linesWithSessionId.map(line => println(line)) Aber das ist gedruckt: res1:

111
Pyspark in Python-Shell importieren

Dies ist eine Kopie der Frage eines anderen in einem anderen Forum, die nie beantwortet wurde. Daher dachte ich, ich würde sie hier erneut stellen, da ich das gleiche Problem habe. (Siehe http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Ich habe Spark ordnungsgemäß auf meinem Computer...

110
Laden Sie die CSV-Datei mit Spark

Ich bin neu in Spark und versuche, CSV-Daten aus einer Datei mit Spark zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir eine Liste der beiden ersten Spalten meiner Datei gibt,...

106
So überschreiben Sie das Ausgabeverzeichnis in spark

Ich habe eine Spark-Streaming-Anwendung, die für jede Minute einen Datensatz erstellt. Ich muss die Ergebnisse der verarbeiteten Daten speichern / überschreiben. Beim Versuch, das Dataset org.apache.hadoop.mapred.FileAlreadyExistsException zu überschreiben, wird die Ausführung gestoppt. Ich habe...

101
Spark Kill Laufende Anwendung

Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, in denen meinen anderen Anwendungen keine Ressource zugewiesen wird. Ich habe einige schnelle Nachforschungen angestellt und die Leute schlugen vor, YARN kill oder / bin / spark-class zu verwenden, um den Befehl zu beenden....