Speichern Sie diese RDD als Sequenzfile serialisierter Objekte
tmpFile = NamedTemporaryFile(delete=True)
tmpFile.close()
sc.parallelize([1, 2, 'spark', 'rdd']).saveAsPickleFile(tmpFile.name, 3)
sorted(sc.saveAsPickleFile(tmpFile.name, 5).map(str).collect())
# ['1', '2', 'rdd', 'spark']
Ethercourt.ml