Als «pyspark» getaggte Fragen

Die Spark Python-API (PySpark) macht das Apache-Spark-Programmiermodell für Python verfügbar.

12
Importieren Sie den Inhalt der CSV-Datei in pyspark-Datenrahmen

Wie kann ich eine CSV-Datei in pyspark-Datenrahmen importieren? Ich habe sogar versucht, eine CSV-Datei in Pandas zu lesen und sie dann mit createDataFrame in einen Spark-Datenrahmen zu konvertieren, aber es wird immer noch ein Fehler angezeigt. Kann mich jemand durch das führen? Bitte sagen Sie...

12
Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das...

10
Funken, der eine einzelne RDD optimal in zwei aufteilt

Ich habe einen großen Datensatz, den ich nach bestimmten Parametern in Gruppen aufteilen muss. Ich möchte, dass der Job so effizient wie möglich bearbeitet wird. Ich kann mir zwei Möglichkeiten vorstellen, dies zu tun Option 1 - Karte aus Original-RDD erstellen und filtern def customMapper(record):...

8
Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht...