Ich verwende spark-csv, um Daten in einen DataFrame zu laden. Ich möchte eine einfache Abfrage durchführen und den Inhalt anzeigen:
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()
Die Spalte scheint abgeschnitten zu sein:
scala> results.show();
+--------------------+
| col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+
Wie zeige ich den vollständigen Inhalt der Spalte?
dataFrame.writeStream.outputMode("append").format("console").option("truncate", "false").start()
Wenn Sie setzen
results.show(false)
, werden die Ergebnisse nicht abgeschnittenquelle
false
hier auch gilt.results.show(20, False)
. Der von Ihnen erwähnte Fehler führt zu einem Fehler.scala
beiden Fällen sind die Optionen gültig.results.show(false)
undresults.show(20, false)
Die anderen Lösungen sind gut. Wenn dies Ihre Ziele sind:
Diese beiden Zeilen sind nützlich ...
Durch das Fortbestehen sind die beiden Executor-Aktionen Count und Show schneller und effizienter, wenn die zugrunde liegende vorläufige Datenrahmenstruktur innerhalb der Executors verwendet
persist
odercache
beibehalten wird. Weitere Informationen zu Persist und Cache .quelle
Der folgende Code hilft dabei, alle Zeilen ohne Kürzung in jeder Spalte anzuzeigen
quelle
df
zweimal gesammelt?results.show(20, False)
oderresults.show(20, false)
abhängig davon, ob Sie es unter Java / Scala / Python ausführenquelle
results.show(false)
zeigt Ihnen den vollständigen Inhalt der Spalte.Die Methode ist standardmäßig auf 20 begrenzt. Wenn Sie zuvor eine Zahl hinzufügen,
false
werden weitere Zeilen angezeigt .quelle
Versuchen Sie diesen Befehl:
quelle
df
zweimal gesammelt?results.show(20,false)
hat den Trick für mich in Scala gemacht.quelle
In Databricks können Sie den Datenrahmen in einem Tabellenformat visualisieren. Mit dem Befehl:
Es wird so aussehen
quelle
Ich benutze das Plugin Chrome Erweiterung funktioniert ziemlich gut:
[ https://userstyles.org/styles/157357/jupyter-notebook-wide weibl. [1 ]
quelle
Versuchen Sie dies in Scala:
Die show-Methode akzeptiert eine Ganzzahl und einen Booleschen Wert, aber df.count gibt Long zurück ... daher ist Typumwandlung erforderlich
quelle
In c # werden
Option("truncate", false)
Daten in der Ausgabe nicht abgeschnitten.quelle
Die folgende Antwort gilt für eine Spark-Streaming-Anwendung.
Wenn Sie die Option "Abschneiden" auf "Falsch" setzen, können Sie die Ausgabesenke anweisen, die vollständige Spalte anzuzeigen.
quelle