Als «apache-spark» getaggte Fragen

Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.

253
Spark - repartition () vs coalesce ()

Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen...

228
Spark java.lang.OutOfMemoryError: Java-Heapspeicher

Mein Cluster: 1 Master, 11 Slaves, jeder Knoten hat 6 GB Speicher. Meine Einstellungen: spark.executor.memory=4g, Dspark.akka.frameSize=512 Hier ist das Problem: Zuerst habe ich einige Daten (2,19 GB) von HDFS zu RDD gelesen: val imageBundleRDD = sc.newAPIHadoopFile(...) Zweitens , machen Sie etwas...

178
Funkenleistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen...

178
Wie lese ich mehrere Textdateien in eine einzige RDD?

Ich möchte eine Reihe von Textdateien von einem HDFS-Speicherort lesen und eine Zuordnung in einer Iteration mit Spark durchführen. JavaRDD<String> records = ctx.textFile(args[1], 1); kann jeweils nur eine Datei lesen. Ich möchte mehr als eine Datei lesen und als einzelne RDD verarbeiten....

141
Wie werden Phasen in Spark in Aufgaben aufgeteilt?

Nehmen wir im Folgenden an, dass zu jedem Zeitpunkt nur ein Spark-Job ausgeführt wird. Was ich bisher bekommen habe Folgendes verstehe ich, was in Spark passiert: Wenn a SparkContexterstellt wird, startet jeder Worker-Knoten einen Executor. Ausführende sind separate Prozesse (JVM), die eine...