Als «apache-spark» getaggte Fragen

Apache Spark ist ein Open-Source-Cluster-Computing-System, mit dem Datenanalysen schnell durchgeführt werden sollen - sowohl schnell ausgeführt als auch schnell geschrieben werden können. Es wurde ursprünglich im AMPLab an der UC Berkeley entwickelt.

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

10
Funken, der eine einzelne RDD optimal in zwei aufteilt

Ich habe einen großen Datensatz, den ich nach bestimmten Parametern in Gruppen aufteilen muss. Ich möchte, dass der Job so effizient wie möglich bearbeitet wird. Ich kann mir zwei Möglichkeiten vorstellen, dies zu tun Option 1 - Karte aus Original-RDD erstellen und filtern def customMapper(record):...

10
Beziehung zwischen Faltung in Mathematik und CNN

Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht

10
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem...