Ich möchte eine XLSX-Datei mit der Pandas Library of Python lesen und die Daten in eine PostgreSQL-Tabelle portieren.
Bisher konnte ich nur Folgendes tun:
import pandas as pd
data = pd.ExcelFile("*File Name*")
Jetzt weiß ich, dass der Schritt erfolgreich ausgeführt wurde, aber ich möchte wissen, wie ich die gelesene Excel-Datei analysieren kann, damit ich verstehen kann, wie die Daten in Excel den Daten in den variablen Daten zugeordnet werden.
Ich habe gelernt, dass Daten ein Dataframe-Objekt sind, wenn ich mich nicht irre. Wie analysiere ich dieses Datenrahmenobjekt, um jede Zeile Zeile für Zeile zu extrahieren?
Antworten:
Normalerweise erstelle ich
DataFrame
für jedes Blatt ein Wörterbuch mit :Update: In Pandas Version 0.21.0+ Sie werden dieses Verhalten bekommen saubere , indem
sheet_name=None
anread_excel
:In 0,20 und früher war dies
sheetname
eher alssheet_name
(dies wird jetzt zugunsten der oben genannten abgelehnt):quelle
pandas.DataFrame.to_sql
könnte hilfreich sein. Zum Lesen können Sie dann verwenden,dp.py
welche Pandas DataFrame-Objekte zurückgegeben werden.quelle
Die
read_excel
Methode von DataFrame ähnelt derread_csv
Methode:quelle
Anstatt einen Blattnamen zu verwenden, verwende ich den Parameter index_col (index_col = 0 für), falls Sie die Excel-Datei nicht kennen oder nicht öffnen können, um Ubuntu einzuchecken (in meinem Fall Python 3.6.7, Ubuntu 18.04) das erste Blatt)
quelle
sheet_name=0
das Blatt auch anstelle von 0 verwenden oder benennen.Weisen Sie den Dateinamen der Tabelle zu
file
Tabelle laden
Drucken Sie die Blattnamen
Laden Sie ein Blatt mit dem Namen df1 in einen DataFrame
quelle
Wenn Sie
read_excel()
eine Datei verwenden, die mit der Funktion geöffnet wurdeopen()
, müssen Sie sie zur Öffnungsfunktion hinzufügenrb
, um Codierungsfehler zu vermeidenquelle