Ich möchte DataFramemit einem bestimmten Schema in Scala erstellen . Ich habe versucht, JSON read (ich meine das Lesen leerer Dateien) zu verwenden, aber ich denke nicht, dass dies die beste Vorgehensweise
Ich möchte DataFramemit einem bestimmten Schema in Scala erstellen . Ich habe versucht, JSON read (ich meine das Lesen leerer Dateien) zu verwenden, aber ich denke nicht, dass dies die beste Vorgehensweise
Ich versuche alle Header / Spaltennamen von a DataFramein Spark-Scala zu konvertieren . Ab sofort habe ich folgenden Code, der nur einen einzelnen Spaltennamen ersetzt. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }
Ich versuche, Apache Spark unter Windows einzurichten. Nachdem ich ein bisschen gesucht habe, verstehe ich, dass der Standalone-Modus das ist, was ich will. Welche Binärdateien lade ich herunter, um Apache Spark in Windows auszuführen? Ich sehe Distributionen mit Hadoop und CDH auf der...
Was bedeuten Einträge wie die folgenden in meiner Spark-Shell, wenn ich eine Funktion ausführe? [Stage7:===========> (14174 + 5) / 62500]
Ich habe eine Spark-App, die im lokalen Modus problemlos ausgeführt wird, aber beim Senden an den Spark-Cluster einige Probleme hat. Die Fehlermeldung lautet wie folgt: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):
Ich habe Spark 1.4 vom GH-Entwicklungsmaster erstellt, und der Build lief einwandfrei. Aber wenn ich eine mache, bin/pysparkbekomme ich die Python 2.7.9 Version. Wie kann ich das
Ich kann keinen einfachen sparkJob in Scala IDE(Maven Spark-Projekt) ausführen, auf dem installiert istWindows 7 Die Spark-Core-Abhängigkeit wurde hinzugefügt. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData =
Gibt es Abhängigkeiten zwischen Spark und Hadoop ? Wenn nicht, gibt es Funktionen, die ich vermissen werde, wenn ich Spark ohne Hadoop ausführe
Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird...
Ich möchte eine Zeichenfolgenspalte eines Datenrahmens in eine Liste konvertieren. Was ich in der DataframeAPI finden kann, ist RDD. Daher habe ich versucht, es zuerst wieder in RDD zu konvertieren und dann die toArrayFunktion auf das RDD anzuwenden . In diesem Fall funktionieren Länge und SQL...
Ich verwende Spark 1.4.0-rc2, damit ich Python 3 mit Spark verwenden kann. Wenn ich export PYSPARK_PYTHON=python3meiner .bashrc-Datei hinzufüge , kann ich spark interaktiv mit Python 3 ausführen. Wenn ich jedoch ein eigenständiges Programm im lokalen Modus ausführen möchte, wird folgende...
Ist es möglich, DataFrameFunken direkt bei Hive zu speichern ? Ich habe versucht , mit der Umwandlung DataFramezu Rddund dann als Textdatei speichern und dann in Hive zu laden. Aber ich frage mich, ob ich direkt sparen kann, um dataframezu leben
Ich habe versucht, spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) unter Mac OS Yosemite 10.10.5 mit zu starten "./bin/spark-shell". Es hat den Fehler unten. Ich habe auch versucht, verschiedene Versionen von Spark zu installieren, aber alle haben den gleichen Fehler. Dies ist das zweite Mal, dass ich...
Wo fangen Sie an, die oben genannten Parameter abzustimmen? Beginnen wir mit dem Executor-Speicher und erhalten die Anzahl der Executoren oder beginnen wir mit Kernen und erhalten die Executor-Nummer. Ich bin dem Link gefolgt . Ich habe jedoch eine hochrangige Idee, bin mir aber immer noch nicht...
Von meiner Spark-Benutzeroberfläche. Was bedeutet es mit übersprungen?
Ich führe einen Spark-Job mit in einem Spekulationsmodus aus. Ich habe ungefähr 500 Aufgaben und ungefähr 500 Dateien mit 1 GB gz komprimiert. Ich bekomme in jedem Job für 1-2 Aufgaben den angehängten Fehler, bei dem er dutzende Male wiederholt wird (wodurch verhindert wird, dass der Job...
Ich möchte die typesichere Konfiguration eines Spark-Jobs in einer dev / prod-Umgebung ändern . Es scheint mir, dass der einfachste Weg, dies zu erreichen, darin besteht, -Dconfig.resource=ENVNAMEauf den Job überzugehen. Dann erledigt die Typesafe-Konfigurationsbibliothek die Arbeit für...
Ich habe die Dokumentation von gelesen HashPartitioner. Leider wurde außer den API-Aufrufen nicht viel erklärt. Ich gehe davon aus, dass HashPartitionerdie verteilte Menge basierend auf dem Hash der Schlüssel partitioniert wird. Zum Beispiel, wenn meine Daten wie sind (1,1), (1,2), (1,3), (2,1),...
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint,...
Apache Beam unterstützt mehrere Runner-Backends, einschließlich Apache Spark und Flink. Ich bin mit Spark / Flink vertraut und versuche, die Vor- und Nachteile von Beam für die Stapelverarbeitung zu erkennen. Wenn man sich das Beispiel für die Anzahl der Beam-Wörter ansieht , scheint es den...