Ich habe einen Pandas DataFrame und möchte die Spalten 'lat' und 'long' zu einem Tupel kombinieren.
<class 'pandas.core.frame.DataFrame'>
Int64Index: 205482 entries, 0 to 209018
Data columns:
Month 205482 non-null values
Reported by 205482 non-null values
Falls within 205482 non-null values
Easting 205482 non-null values
Northing 205482 non-null values
Location 205482 non-null values
Crime type 205482 non-null values
long 205482 non-null values
lat 205482 non-null values
dtypes: float64(4), object(5)
Der Code, den ich zu verwenden versuchte, war:
def merge_two_cols(series):
return (series['lat'], series['long'])
sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
Dies ergab jedoch den folgenden Fehler:
---------------------------------------------------------------------------
AssertionError Traceback (most recent call last)
<ipython-input-261-e752e52a96e6> in <module>()
2 return (series['lat'], series['long'])
3
----> 4 sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
5
...
AssertionError: Block shape incompatible with manager
Wie kann ich dieses Problem lösen?
list
. Dies sollte funktionieren:df['new_col'] = list(zip(df.lat, df.long))
list(zip(df.lat, df.long))
in 124df[['lat', 'long']].apply(tuple, axis=1)
ms für 900.000 Zeilen viel effizienter als in 14,2 s. Das Verhältnis ist mehr als 100.df['new_col'] = list(zip(df[cols_to_keep]))
, erhalte aber immer wieder eine Fehlermeldung:Length of values does not match length of index
Irgendwelche Ratschläge?df['new_col'] = list(zip(*[df[c] for c in cols_to_keep])
quelle
Pandas hat die
itertuples
Methode, genau dies zu tun:quelle
Ich möchte hinzufügen
df.values.tolist()
. (Solange es Ihnen nichts ausmacht, eine Liste mit Listen anstelle von Tupeln zu erhalten)quelle
%timeit df[['a', 'b']].values.tolist()
. Es ist immer noch viel schneller.