apache-spark
rdd
Aravind Yarram
quelle
quelle
In der Regel bedeutet dies, dass Daten aus dem Cache abgerufen wurden und eine bestimmte Phase nicht erneut ausgeführt werden musste. Dies stimmt mit Ihrer DAG überein, die zeigt, dass für die nächste Stufe ein Mischen erforderlich ist ( reduceByKey
). Immer wenn es um das Mischen geht , speichert Spark generierte Daten automatisch zwischen :
Shuffle generiert auch eine große Anzahl von Zwischendateien auf der Festplatte. Ab Spark 1.3 bleiben diese Dateien erhalten, bis die entsprechenden RDDs nicht mehr verwendet werden und der Müll gesammelt wird. Dies geschieht, damit die Shuffle-Dateien nicht neu erstellt werden müssen, wenn die Linie neu berechnet wird.