Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere
Apache Spark ist eine in Scala geschriebene Open Source-Engine für verteilte Datenverarbeitung, die Benutzern eine einheitliche API und verteilte Datensätze bietet. Anwendungsfälle für Apache Spark beziehen sich häufig auf maschinelles / tiefes Lernen und die Grafikverarbeitung.
Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere
Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen...
Kann mir jemand den Unterschied zwischen Map und FlatMap erklären und was ist ein guter Anwendungsfall für jeden? Was bedeutet "Ergebnisse reduzieren"? Wozu ist es
Mein Cluster: 1 Master, 11 Slaves, jeder Knoten hat 6 GB Speicher. Meine Einstellungen: spark.executor.memory=4g, Dspark.akka.frameSize=512 Hier ist das Problem: Zuerst habe ich einige Daten (2,19 GB) von HDFS zu RDD gelesen: val imageBundleRDD = sc.newAPIHadoopFile(...) Zweitens , machen Sie etwas...
Seltsames Verhalten beim Aufrufen einer Funktion außerhalb eines Abschlusses: Wenn sich die Funktion in einem Objekt befindet, funktioniert alles Wenn die Funktion in einer Klasse ist, erhalten Sie: Aufgabe nicht serialisierbar: java.io.NotSerializableException: Testen Das Problem ist, dass ich...
Ich habe die Übersicht über den Cluster-Modus gelesen und kann die verschiedenen Prozesse im Spark Standalone-Cluster und die Parallelität immer noch nicht verstehen . Ist der Worker ein JVM-Prozess oder nicht? Ich habe das ausgeführt bin\start-slave.shund festgestellt, dass es den Arbeiter...
RDDWas sind die Unterschiede zwischen cache()und persist()im Funken in Bezug auf die Persistenz
Ich verwende spark-csv, um Daten in einen DataFrame zu laden. Ich möchte eine einfache Abfrage durchführen und den Inhalt anzeigen: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col...
Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit...
Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Ausführenden zu verstehen, wenn ein Spark-Job auf YARN ausgeführt wird. Die Testumgebung ist wie folgt: Anzahl der Datenknoten: 3 Datenknoten-Maschinenspezifikation: CPU: Core i7-4790 (Anzahl der Kerne: 4, Anzahl der...
Ich möchte verschiedene Nachrichten stoppen, die auf Spark Shell kommen. Ich habe versucht, die log4j.propertiesDatei zu bearbeiten , um diese Nachricht zu stoppen. Hier sind die Inhalte von log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,
Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen...
Ich möchte eine Reihe von Textdateien von einem HDFS-Speicherort lesen und eine Zuordnung in einer Iteration mit Spark durchführen. JavaRDD<String> records = ctx.textFile(args[1], 1); kann jeweils nur eine Datei lesen. Ich möchte mehr als eine Datei lesen und als einzelne RDD verarbeiten....
Wenn ein ausfallsicheres verteiltes Dataset (RDD) aus einer Textdatei oder -sammlung (oder aus einem anderen RDD) erstellt wird, müssen wir "Cache" oder "Persist" explizit aufrufen, um die RDD-Daten im Speicher zu speichern? Oder werden die RDD-Daten standardmäßig verteilt im Speicher gespeichert?...
Stimmt ... es wurde ziemlich viel diskutiert. Es gibt jedoch viele Unklarheiten und einige der Antworten ... einschließlich des Duplizierens von JAR-Referenzen in der JAR- / Executor- / Treiberkonfiguration oder in den Optionen. Die mehrdeutigen und / oder ausgelassenen Details Nach Unklarheiten...
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable...
Laut Introducing Spark Datasets : Da wir uns auf Spark 2.0 freuen, planen wir einige aufregende Verbesserungen an Datensätzen, insbesondere: ... Benutzerdefinierte Encoder - Während wir derzeit Encoder für eine Vielzahl von Typen automatisch generieren, möchten wir eine API für benutzerdefinierte...
Ich habe Spark mithilfe des AWS EC2-Handbuchs installiert und kann das Programm mithilfe des bin/pysparkSkripts problemlos starten, um zur Spark-Eingabeaufforderung zu gelangen. Außerdem kann ich den Schnellstart erfolgreich ausführen. Ich kann jedoch für mein ganzes Leben nicht herausfinden, wie...
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...
Nehmen wir im Folgenden an, dass zu jedem Zeitpunkt nur ein Spark-Job ausgeführt wird. Was ich bisher bekommen habe Folgendes verstehe ich, was in Spark passiert: Wenn a SparkContexterstellt wird, startet jeder Worker-Knoten einen Executor. Ausführende sind separate Prozesse (JVM), die eine...