Als «dataframe» getaggte Fragen

74

Wie summiere ich mit Pandas Werte in einer Spalte, die einer bestimmten Bedingung entsprechen?

Angenommen, ich habe eine Spalte wie diese: a b 1 5 1 7 2 3 1 3 2 5 Ich möchte zum Beispiel die Werte für bwo zusammenfassen a = 1. Das würde mir geben 5 + 7 + 3 = 15. Wie mache ich das bei Pandas?

74

Zählen Sie die Anzahl der Nicht-NaN-Einträge in jeder Spalte des Datenrahmens

Ich habe einen wirklich großen DataFrame und habe mich gefragt, ob es einen kurzen Weg (ein oder zwei Zeilen) gibt, um die Anzahl der Nicht-NaN-Einträge in einem DataFrame zu ermitteln. Ich möchte diese Spalte nicht einzeln ausführen, da ich fast 1000 Spalten habe. df1 =

python pandas dataframe count nan

74

Zusammenführen von Datenrahmen im Index mit Pandas

Ich habe zwei Datenrahmen und jeder hat zwei Indexspalten. Ich möchte sie zusammenführen. Der erste Datenrahmen ist beispielsweise der folgende: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9 Der zweite Datenrahmen ist der folgende: V2 A 1/1/2012 15 3/1/2012 21 B...

python pandas merge dataframe

74

Ruft die aktuelle Anzahl der Partitionen eines DataFrames ab

Gibt es eine Möglichkeit, die aktuelle Anzahl der Partitionen eines DataFrame abzurufen? Ich habe das DataFrame-Javadoc (Spark 1.6) überprüft und keine Methode dafür gefunden, oder habe ich es einfach verpasst? (Im Fall von JavaRDD gibt es eine getNumPartitions () -Methode.)

apache-spark dataframe apache-spark-sql

74

Zeigen Sie Zeilen mit einem oder mehreren NaN-Werten im Pandas-Datenrahmen an

Ich habe einen Datenrahmen, in dem einige Zeilen fehlende Werte enthalten. In [31]: df.head() Out[31]: alpha1 alpha2 gamma1 gamma2 chi2min filename M66_MI_NSRh35d32kpoints.dat 0.8016 0.9283 1.000000 0.074804 3.985599e+01 F71_sMI_DMRI51d.dat 0.0000 0.0000 NaN 0.000000 1.000000e+25...

python pandas dataframe nan

73

Wie teile ich einen Datenrahmen?

Ich möchte einen Datenrahmen in mehrere kleinere aufteilen. Dies scheint eine sehr triviale Frage zu sein, ich kann jedoch keine Lösung für die Websuche finden.

r split dataframe r-faq

73

Elegante Indizierung bis zum Ende des Vektors / der Matrix

Kann man in R sagen - ich möchte alle Indizes von der Position ibis zum Ende des Vektors / der Matrix? Angenommen, ich möchte eine Submatrix ab der 3. Spalte. Ich weiß derzeit nur so: A = matrix(rep(1:8, each = 5), nrow = 5) # just generate some example matrix... A[,3:ncol(A)] # get submatrix from...

r matrix dataframe indexing

73

Bedingte Ersetzung von Werten in einem data.frame

Ich versuche zu verstehen, wie man Werte in einem Datenrahmen ohne Verwendung einer Schleife bedingt ersetzt. Mein Datenrahmen ist wie folgt aufgebaut: > df a b est 1 11.77000 2 0 2 10.90000 3 0 3 10.32000 2 0 4 10.96000 0 0 5 9.90600 0 0 6 10.70000 0 0 7 11.43000 1 0 8 11.41000 2 0 9 10.48512...

r dataframe

72

Aktualisieren einer Datenrahmenspalte in Spark

Bei Betrachtung der neuen Spark-Datenrahmen-API ist unklar, ob es möglich ist, Datenrahmenspalten zu ändern. Wie würde ich mich über einen Wert in der Zeile zu ändern xSpalte yeines Datenrahmens? In pandasdiesem wäredf.ix[x,y] = new_value Bearbeiten: Wenn Sie das unten Gesagte konsolidieren,...

python apache-spark pyspark apache-spark-sql spark-dataframe

71

Anzeige von Zeilennamen aus dem Datenrahmen entfernen

Ich erstelle einen Datenrahmen mit diesem Code: df <- data.frame(dbGetQuery(con, paste('select * from test'))) Was dazu führt: UID BuildingCode AccessTime 1 123456 BUILD-1 2014-06-16 07:00:00 2 364952 BUILD-2 2014-06-15 08:00:00 3 95865 BUILD-1 2014-06-06 09:50:00 Ich bin dann zu...

r printing dataframe output-formatting rowname

70

Ersetzen von Zeichenwerten durch NA in einem Datenrahmen

Ich habe einen Datenrahmen, der (an zufälligen Stellen) einen Zeichenwert (z. B. "foo") enthält, den ich durch einen ersetzen möchteNA . Was ist der beste Weg, dies über den gesamten Datenrahmen hinweg zu tun?

r dataframe na

23

Fügen Sie dem Datenrahmen basierend auf dem Wörterbuch eine neue Spalte hinzu

Ich habe einen Datenrahmen und ein Wörterbuch. Ich muss dem Datenrahmen eine neue Spalte hinzufügen und seine Werte basierend auf dem Wörterbuch berechnen. Maschinelles Lernen, Hinzufügen neuer Funktionen basierend auf einer Tabelle: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df =...

python pandas dataframe dictionary

19

Anzahl der Stapel- und Rückgabewerte für jede Variable?

Ich habe einen Datenrahmen, der Antworten von 19717 Personen auf die Wahl der Programmiersprachen durch Multiple-Choice-Fragen aufzeichnet. Die erste Spalte ist natürlich das Geschlecht des Befragten, während der Rest die Auswahl ist, die er ausgewählt hat. Wenn ich also Python auswähle, wird meine...

python pandas dataframe

16

Listen in zwei Spalten zeilenweise effizient vergleichen

Wenn Sie einen Pandas DataFrame wie diesen haben: import pandas as pd import numpy as np df = pd.DataFrame({'today': [['a', 'b', 'c'], ['a', 'b'], ['b']], 'yesterday': [['a', 'b'], ['a'], ['a']]}) today yesterday 0 ['a', 'b', 'c'] ['a', 'b'] 1 ['a', 'b'] ['a'] 2 ['b'] ['a'] ... etc Aber mit...

python pandas numpy dataframe

14

Holen Sie sich die nächste Entfernung mit zwei Geodatenrahmen in Pandas

Hier ist mein erster Geodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66},

python pandas dataframe geolocation geopandas

14

Berechnen Sie den Prozentsatz ähnlicher Werte im Pandas-Datenrahmen

Ich habe einen Datenrahmen dfmit zwei Spalten: Skript (mit Text) und Sprecher Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 Und ich habe folgende Liste: L = ['a','b','c'] Mit dem folgenden Code: df =

python python-3.x pandas dataframe

13

Warum führt die Zuweisung mit [:] gegenüber iloc [:] bei Pandas zu unterschiedlichen Ergebnissen?

Ich bin so verwirrt mit verschiedenen Indizierungsmethoden, die ilocin Pandas verwendet werden. Angenommen, ich versuche, einen 1-D-Datenrahmen in einen 2-D-Datenrahmen zu konvertieren. Zuerst habe ich den folgenden 1-D-Datenrahmen a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Und...

python pandas dataframe

13

Langsame Pandas DataFrame MultiIndex neu indizieren

Ich habe einen Pandas DataFrame des Formulars: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71...

python pandas numpy dataframe

12

So schwenken Sie den Datenrahmen, der aus einer Spalte mit Abschnitt und Unterabschnitt besteht. In R.

Ich habe einen unten genannten Datenrahmen: structure( list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7", "P-8"), Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04", "2020-03-16 06:13:55", "2020-03-16 10:03:43", "2020-03-16 12:37:09", "2020-03-16 06:40:24",...

r dataframe dplyr tidyverse tidyr

12

Generieren Sie gefilterte binäre kartesische Produkte

Problemstellung Ich suche nach einer effizienten Möglichkeit, vollständige binäre kartesische Produkte (Tabellen mit allen Kombinationen von Wahr und Falsch mit einer bestimmten Anzahl von Spalten) zu generieren, die nach bestimmten exklusiven Bedingungen gefiltert werden. Zum Beispiel n=3würden...

python pandas dataframe