Als «apache-spark» getaggte Fragen

257

Unterschied zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere

253

Spark - repartition () vs coalesce ()

Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen...

apache-spark distributed-computing rdd

249

Was ist der Unterschied zwischen Map und FlatMap und ein guter Anwendungsfall für jeden?

Kann mir jemand den Unterschied zwischen Map und FlatMap erklären und was ist ein guter Anwendungsfall für jeden? Was bedeutet "Ergebnisse reduzieren"? Wozu ist es

apache-spark

228

Spark java.lang.OutOfMemoryError: Java-Heapspeicher

Mein Cluster: 1 Master, 11 Slaves, jeder Knoten hat 6 GB Speicher. Meine Einstellungen: spark.executor.memory=4g, Dspark.akka.frameSize=512 Hier ist das Problem: Zuerst habe ich einige Daten (2,19 GB) von HDFS zu RDD gelesen: val imageBundleRDD = sc.newAPIHadoopFile(...) Zweitens , machen Sie etwas...

out-of-memory apache-spark

224

Aufgabe nicht serialisierbar: java.io.NotSerializableException beim Aufruf der Funktion außerhalb des Abschlusses nur für Klassen, nicht für Objekte

Seltsames Verhalten beim Aufrufen einer Funktion außerhalb eines Abschlusses: Wenn sich die Funktion in einem Objekt befindet, funktioniert alles Wenn die Funktion in einer Klasse ist, erhalten Sie: Aufgabe nicht serialisierbar: java.io.NotSerializableException: Testen Das Problem ist, dass ich...

scala serialization apache-spark typesafe

219

Was sind Mitarbeiter, Ausführende und Kerne im Spark Standalone-Cluster?

Ich habe die Übersicht über den Cluster-Modus gelesen und kann die verschiedenen Prozesse im Spark Standalone-Cluster und die Parallelität immer noch nicht verstehen . Ist der Worker ein JVM-Prozess oder nicht? Ich habe das ausgeführt bin\start-slave.shund festgestellt, dass es den Arbeiter...

apache-spark distributed-computing

202

Was ist der Unterschied zwischen Cache und Persist?

RDDWas sind die Unterschiede zwischen cache()und persist()im Funken in Bezug auf die Persistenz

apache-spark distributed-computing rdd

201

Wie kann der vollständige Spalteninhalt in einem Spark-Datenrahmen angezeigt werden?

Ich verwende spark-csv, um Daten in einen DataFrame zu laden. Ich möchte eine einfache Abfrage durchführen und den Inhalt anzeigen: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col...

apache-spark dataframe spark-csv output-formatting

201

Wie ändere ich die Namen von Dataframe-Spalten in pyspark?

Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit...

python apache-spark pyspark pyspark-sql

192

Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Ausführenden

Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Ausführenden zu verstehen, wenn ein Spark-Job auf YARN ausgeführt wird. Die Testumgebung ist wie folgt: Anzahl der Datenknoten: 3 Datenknoten-Maschinenspezifikation: CPU: Core i7-4790 (Anzahl der Kerne: 4, Anzahl der...

hadoop apache-spark yarn

179

Wie kann ich verhindern, dass INFO-Nachrichten auf der Spark-Konsole angezeigt werden?

Ich möchte verschiedene Nachrichten stoppen, die auf Spark Shell kommen. Ich habe versucht, die log4j.propertiesDatei zu bearbeiten , um diese Nachricht zu stoppen. Hier sind die Inhalte von log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,

apache-spark log4j spark-submit

178

Funkenleistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen...

scala performance apache-spark pyspark rdd

178

Wie lese ich mehrere Textdateien in eine einzige RDD?

Ich möchte eine Reihe von Textdateien von einem HDFS-Speicherort lesen und eine Zuordnung in einer Iteration mit Spark durchführen. JavaRDD<String> records = ctx.textFile(args[1], 1); kann jeweils nur eine Datei lesen. Ich möchte mehr als eine Datei lesen und als einzelne RDD verarbeiten....

apache-spark

171

(Warum) müssen wir den Cache aufrufen oder auf einer RDD bestehen bleiben?

Wenn ein ausfallsicheres verteiltes Dataset (RDD) aus einer Textdatei oder -sammlung (oder aus einem anderen RDD) erstellt wird, müssen wir "Cache" oder "Persist" explizit aufrufen, um die RDD-Daten im Speicher zu speichern? Oder werden die RDD-Daten standardmäßig verteilt im Speicher gespeichert?...

scala apache-spark rdd

158

Hinzufügen von Gläsern zu einem Spark-Job - Spark-Submit

Stimmt ... es wurde ziemlich viel diskutiert. Es gibt jedoch viele Unklarheiten und einige der Antworten ... einschließlich des Duplizierens von JAR-Referenzen in der JAR- / Executor- / Treiberkonfiguration oder in den Optionen. Die mehrdeutigen und / oder ausgelassenen Details Nach Unklarheiten...

java scala apache-spark jar spark-submit

151

Wie kann ich Spaltentypen im DataFrame von Spark SQL ändern?

Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable...

scala apache-spark apache-spark-sql

149

Wie speichere ich benutzerdefinierte Objekte in Dataset?

Laut Introducing Spark Datasets : Da wir uns auf Spark 2.0 freuen, planen wir einige aufregende Verbesserungen an Datensätzen, insbesondere: ... Benutzerdefinierte Encoder - Während wir derzeit Encoder für eine Vielzahl von Typen automatisch generieren, möchten wir eine API für benutzerdefinierte...

scala apache-spark apache-spark-dataset apache-spark-encoders

143

Wie deaktiviere ich die INFO-Anmeldung in Spark?

Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie...

python scala apache-spark hadoop pyspark

143

Wie wähle ich die erste Zeile jeder Gruppe aus?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...

sql scala apache-spark dataframe apache-spark-sql

141

Wie werden Phasen in Spark in Aufgaben aufgeteilt?

Nehmen wir im Folgenden an, dass zu jedem Zeitpunkt nur ein Spark-Job ausgeführt wird. Was ich bisher bekommen habe Folgendes verstehe ich, was in Spark passiert: Wenn a SparkContexterstellt wird, startet jeder Worker-Knoten einen Executor. Ausführende sind separate Prozesse (JVM), die eine...

apache-spark