Als «rdd» getaggte Fragen

257

Unterschied zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was der Unterschied zwischen einem RDDund DataFrame (Spark 2.0.0 DataFrame ist nur ein Typ-Alias für Dataset[Row]) in Apache Spark ist. Können Sie eine in die andere

253

Spark - repartition () vs coalesce ()

Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen...

apache-spark distributed-computing rdd

202

Was ist der Unterschied zwischen Cache und Persist?

RDDWas sind die Unterschiede zwischen cache()und persist()im Funken in Bezug auf die Persistenz

apache-spark distributed-computing rdd

178

Funkenleistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen...

scala performance apache-spark pyspark rdd

171

(Warum) müssen wir den Cache aufrufen oder auf einer RDD bestehen bleiben?

Wenn ein ausfallsicheres verteiltes Dataset (RDD) aus einer Textdatei oder -sammlung (oder aus einem anderen RDD) erstellt wird, müssen wir "Cache" oder "Persist" explizit aufrufen, um die RDD-Daten im Speicher zu speichern? Oder werden die RDD-Daten standardmäßig verteilt im Speicher gespeichert?...

scala apache-spark rdd

139

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in Spark

Wie kann ich eine RDD konvertieren ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmen org.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit rdd konvertiert .rdd. Nach der Verarbeitung möchte ich es wieder im Datenrahmen haben. Wie kann ich das machen...

scala apache-spark apache-spark-sql rdd

133

Apache Spark: map vs mapPartitions?

Was ist der Unterschied zwischen einem RDD map und einer mapPartitionsMethode? Und verhält flatMapsich wie mapoder wie mapPartitions? Vielen Dank. (bearbeiten) dh was ist der Unterschied (entweder semantisch oder in Bezug auf die Ausführung) zwischen def map[A, B](rdd: RDD[A], fn: (A => B))...

performance scala apache-spark rdd

84

Was bedeutet "Stage Skipped" in der Apache Spark-Web-Benutzeroberfläche?

Von meiner Spark-Benutzeroberfläche. Was bedeutet es mit übersprungen?

apache-spark rdd

82

Wie funktioniert HashPartitioner?

Ich habe die Dokumentation von gelesen HashPartitioner. Leider wurde außer den API-Aufrufen nicht viel erklärt. Ich gehe davon aus, dass HashPartitionerdie verteilte Menge basierend auf dem Hash der Schlüssel partitioniert wird. Zum Beispiel, wenn meine Daten wie sind (1,1), (1,2), (1,3), (2,1),...

scala apache-spark rdd partitioning