Als «apache-spark» getaggte Fragen

94

Wie erstelle ich einen leeren DataFrame mit einem angegebenen Schema?

Ich möchte DataFramemit einem bestimmten Schema in Scala erstellen . Ich habe versucht, JSON read (ich meine das Lesen leerer Dateien) zu verwenden, aber ich denke nicht, dass dies die beste Vorgehensweise

93

Umbenennen von Spaltennamen eines DataFrame in Spark Scala

Ich versuche alle Header / Spaltennamen von a DataFramein Spark-Scala zu konvertieren . Ab sofort habe ich folgenden Code, der nur einen einzelnen Spaltennamen ersetzt. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

scala apache-spark dataframe apache-spark-sql

93

Wie richte ich Spark unter Windows ein?

Ich versuche, Apache Spark unter Windows einzurichten. Nachdem ich ein bisschen gesucht habe, verstehe ich, dass der Standalone-Modus das ist, was ich will. Welche Binärdateien lade ich herunter, um Apache Spark in Windows auszuführen? Ich sehe Distributionen mit Hadoop und CDH auf der...

windows apache-spark

92

Was bedeuten die Zahlen auf dem Fortschrittsbalken in der Funkenschale?

Was bedeuten Einträge wie die folgenden in meiner Spark-Shell, wenn ich eine Funktion ausführe? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

92

Spark - Fehler "In Ihrer Konfiguration muss eine Master-URL festgelegt sein" beim Senden einer App

Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, aber beim Senden an den Spark-Cluster einige Probleme hat. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):

scala apache-spark

91

Apache Spark: Verwendung von pyspark mit Python 3

Ich habe Spark 1.4 vom GH-Entwicklungsmaster erstellt, und der Build lief einwandfrei. Aber wenn ich eine mache, bin/pysparkbekomme ich die Python 2.7.9 Version. Wie kann ich das

python python-3.x apache-spark

91

java.io.IOException: Die ausführbare Datei null \ bin \ winutils.exe konnte in den Hadoop-Binärdateien nicht gefunden werden. Funkenfinsternis unter Windows 7

Ich kann keinen einfachen sparkJob in Scala IDE(Maven Spark-Projekt) ausführen, auf dem installiert istWindows 7 Die Spark-Core-Abhängigkeit wurde hinzugefügt. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =

eclipse scala apache-spark

88

Kann Apache Spark ohne Hadoop laufen?

Gibt es Abhängigkeiten zwischen Spark und Hadoop ? Wenn nicht, gibt es Funktionen, die ich vermissen werde, wenn ich Spark ohne Hadoop ausführe

hadoop amazon-s3 apache-spark mapreduce mesos

88

Spark DataFrame groupBy und sortiere in absteigender Reihenfolge (pyspark)

Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird...

python apache-spark dataframe pyspark apache-spark-sql

86

Extrahieren Sie die Spaltenwerte von Dataframe als Liste in Apache Spark

Ich möchte eine Zeichenfolgenspalte eines Datenrahmens in eine Liste konvertieren. Was ich in der DataframeAPI finden kann, ist RDD. Daher habe ich versucht, es zuerst wieder in RDD zu konvertieren und dann die toArrayFunktion auf das RDD anzuwenden . In diesem Fall funktionieren Länge und SQL...

scala apache-spark apache-spark-sql

86

Wie setze ich die Python-Version des Treibers auf Funken?

Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende...

apache-spark pyspark

85

Wie speichere ich DataFrame direkt in Hive?

Ist es möglich, DataFrameFunken direkt bei Hive zu speichern ? Ich habe versucht , mit der Umwandlung DataFramezu Rddund dann als Textdatei speichern und dann in Hive zu laden. Aber ich frage mich, ob ich direkt sparen kann, um dataframezu leben

scala apache-spark hive apache-spark-sql

84

Mac Spark-Shell Fehler beim Initialisieren von SparkContext

Ich habe versucht, spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) unter Mac OS Yosemite 10.10.5 mit zu starten "./bin/spark-shell". Es hat den Fehler unten. Ich habe auch versucht, verschiedene Versionen von Spark zu installieren, aber alle haben den gleichen Fehler. Dies ist das zweite Mal, dass ich...

apache-spark

84

Wie kann ich die Nummer, die Kerne und den Executor-Speicher des Funken-Executors einstellen?

Wo fangen Sie an, die oben genannten Parameter abzustimmen? Beginnen wir mit dem Executor-Speicher und erhalten die Anzahl der Executoren oder beginnen wir mit Kernen und erhalten die Executor-Nummer. Ich bin dem Link gefolgt . Ich habe jedoch eine hochrangige Idee, bin mir aber immer noch nicht...

apache-spark

84

Was bedeutet "Stage Skipped" in der Apache Spark-Web-Benutzeroberfläche?

Von meiner Spark-Benutzeroberfläche. Was bedeutet es mit übersprungen?

apache-spark rdd

83

Warum schlagen Spark-Jobs mit org.apache.spark.shuffle.MetadataFetchFailedException fehl: Fehlender Ausgabeort für Shuffle 0 im Spekulationsmodus?

Ich führe einen Spark-Job mit in einem Spekulationsmodus aus. Ich habe ungefähr 500 Aufgaben und ungefähr 500 Dateien mit 1 GB gz komprimiert. Ich bekomme in jedem Job für 1-2 Aufgaben den angehängten Fehler, bei dem er dutzende Male wiederholt wird (wodurch verhindert wird, dass der Job...

apache-spark

83

Wie übergebe ich -D Parameter oder Umgebungsvariable an Spark Job?

Ich möchte die typesichere Konfiguration eines Spark-Jobs in einer dev / prod-Umgebung ändern . Es scheint mir, dass der einfachste Weg, dies zu erreichen, darin besteht, -Dconfig.resource=ENVNAMEauf den Job überzugehen. Dann erledigt die Typesafe-Konfigurationsbibliothek die Arbeit für...

scala apache-spark

82

Wie funktioniert HashPartitioner?

Ich habe die Dokumentation von gelesen HashPartitioner. Leider wurde außer den API-Aufrufen nicht viel erklärt. Ich gehe davon aus, dass HashPartitionerdie verteilte Menge basierend auf dem Hash der Schlüssel partitioniert wird. Zum Beispiel, wenn meine Daten wie sind (1,1), (1,2), (1,3), (2,1),...

scala apache-spark rdd partitioning

81

So löschen Sie Spalten im pyspark-Datenrahmen

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint,...

apache-spark apache-spark-sql pyspark

81

Was sind die Vorteile von Apache Beam gegenüber Spark / Flink für die Stapelverarbeitung?

Apache Beam unterstützt mehrere Runner-Backends, einschließlich Apache Spark und Flink. Ich bin mit Spark / Flink vertraut und versuche, die Vor- und Nachteile von Beam für die Stapelverarbeitung zu erkennen. Wenn man sich das Beispiel für die Anzahl der Beam-Wörter ansieht , scheint es den...

apache-spark apache-flink apache-beam