Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere
Apache Spark SQL ist ein Tool für "SQL und strukturierte Datenverarbeitung" in Spark, einem schnellen und universellen Cluster-Computing-System. Es kann verwendet werden, um Daten von Hive, Parkett usw. abzurufen und SQL-Abfragen über vorhandene RDDs und Datensätze auszuführen.
Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere
Angenommen, ich mache so etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable...
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...
Ich möchte eine CSV in Spark lesen und als DataFrame konvertieren und in HDFS mit speichern df.registerTempTable("table_name") Ich habe versucht: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Fehler, den ich bekommen habe: java.lang.RuntimeException:
Wie kann ich eine RDD konvertieren ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmen org.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit rdd konvertiert .rdd. Nach der Verarbeitung möchte ich es wieder im Datenrahmen haben. Wie kann ich das machen...
Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) ---------------------------------------------------------------------------...
Ich habe es versucht, df.orderBy("col1").show(10)aber es wurde in aufsteigender Reihenfolge sortiert. df.sort("col1").show(10)sortiert auch in absteigender Reihenfolge. Ich habe mir den Stackoverflow angesehen und die Antworten, die ich gefunden habe, waren alle veraltet oder bezogen sich auf RDDs...
Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte einen benutzerdefinierten Partitionierer in DataFrames in Scala definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, enthält eine Liste von Transaktionen nach Konto, silimar zum...
Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...
Wie verketten wir zwei Spalten in einem Apache Spark DataFrame? Gibt es eine Funktion in Spark SQL, die wir verwenden
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgendes habe ich getan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Ich wollte nur wissen, ob...
Im Moment muss ich df.count > 0überprüfen, ob das DataFrameleer ist oder nicht. Aber es ist irgendwie ineffizient. Gibt es einen besseren Weg, das zu tun? Vielen Dank. PS: Ich möchte überprüfen, ob es leer ist, damit ich das nur speichere, DataFramewenn es nicht leer
Ich versuche, einen PySpark-Datenrahmen mit einem Zeilenwert zu filtern None: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] und ich kann mit...
Ich möchte DataFramemit einem bestimmten Schema in Scala erstellen . Ich habe versucht, JSON read (ich meine das Lesen leerer Dateien) zu verwenden, aber ich denke nicht, dass dies die beste Vorgehensweise
Ich versuche alle Header / Spaltennamen von a DataFramein Spark-Scala zu konvertieren . Ab sofort habe ich folgenden Code, der nur einen einzelnen Spaltennamen ersetzt. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }
Ich verwende pyspark (Python 2.7.9 / Spark 1.3.1) und habe einen Datenrahmen GroupObject, den ich in absteigender Reihenfolge filtern und sortieren muss. Der Versuch, dies über diesen Code zu erreichen. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Es wird...
Ich möchte eine Zeichenfolgenspalte eines Datenrahmens in eine Liste konvertieren. Was ich in der DataframeAPI finden kann, ist RDD. Daher habe ich versucht, es zuerst wieder in RDD zu konvertieren und dann die toArrayFunktion auf das RDD anzuwenden . In diesem Fall funktionieren Länge und SQL...
Ist es möglich, DataFrameFunken direkt bei Hive zu speichern ? Ich habe versucht , mit der Umwandlung DataFramezu Rddund dann als Textdatei speichern und dann in Hive zu laden. Aber ich frage mich, ob ich direkt sparen kann, um dataframezu leben
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint,...
Wie ich in Spark Dataframe weiß, kann dieser für mehrere Spalten denselben Namen haben, wie im folgenden Datenrahmen-Snapshot gezeigt: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831,...