Python - Dimension des Datenrahmens

81

Neu in Python.

In R können Sie die Dimension einer Matrix mit dim (...) abrufen. Was ist die entsprechende Funktion in Python Pandas für ihren Datenrahmen?

user1911092
quelle
2
Eine detaillierte Zusammenfassung aller Möglichkeiten zum Abrufen von Dimensionsinformationen zu DataFrames und Serien finden Sie in dieser Antwort unten
Ted Petrou

Antworten:

142

df.shape, wo dfist dein DataFrame?

BrenBarn
quelle
23

Zusammenfassung aller Möglichkeiten, um Informationen zu den Abmessungen von DataFrame oder Series zu erhalten

Es gibt verschiedene Möglichkeiten, Informationen zu den Attributen Ihres DataFrame oder Ihrer Serie abzurufen.

Erstellen Sie Beispieldatenrahmen und -serien

df = pd.DataFrame({'a':[5, 2, np.nan], 'b':[ 9, 2, 4]})
df

     a  b
0  5.0  9
1  2.0  2
2  NaN  4

s = df['a']
s

0    5.0
1    2.0
2    NaN
Name: a, dtype: float64

shape Attribut

Das shapeAttribut gibt ein Tupel mit zwei Elementen aus der Anzahl der Zeilen und der Anzahl der Spalten im DataFrame zurück. Für eine Serie wird ein Tupel mit einem Element zurückgegeben.

df.shape
(3, 2)

s.shape
(3,)

len Funktion

Verwenden Sie die lenFunktion, um die Anzahl der Zeilen eines DataFrames oder die Länge einer Serie abzurufen . Eine Ganzzahl wird zurückgegeben.

len(df)
3

len(s)
3

size Attribut

Verwenden Sie das sizeAttribut, um die Gesamtzahl der Elemente im DataFrame oder in der Serie abzurufen . Bei DataFrames ist dies das Produkt aus der Anzahl der Zeilen und der Anzahl der Spalten. Für eine Serie entspricht dies der lenFunktion:

df.size
6

s.size
3

ndim Attribut

Das ndimAttribut gibt die Anzahl der Dimensionen Ihres DataFrame oder Ihrer Serie zurück. Es wird immer 2 für DataFrames und 1 für Serien sein:

df.ndim
2

s.ndim
1

Die knifflige countMethode

Die countMethode kann verwendet werden, um die Anzahl der nicht fehlenden Werte für jede Spalte / Zeile des DataFrame zurückzugeben. Dies kann sehr verwirrend sein, da die meisten Leute normalerweise nur die Länge jeder Zeile betrachten, was nicht der Fall ist. Beim Aufruf eines DataFrame wird eine Serie mit den Spaltennamen im Index und der Anzahl der nicht fehlenden Werte als Werte zurückgegeben.

df.count() # by default, get the count of each column

a    2
b    3
dtype: int64


df.count(axis='columns') # change direction to get count of each row

0    2
1    2
2    1
dtype: int64

Für eine Serie gibt es nur eine Achse für die Berechnung, sodass nur ein Skalar zurückgegeben wird:

s.count()
2

Verwenden Sie die infoMethode zum Abrufen von Metadaten

Die infoMethode gibt die Anzahl der nicht fehlenden Werte und Datentypen jeder Spalte zurück

df.info ()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
a    2 non-null float64
b    3 non-null int64
dtypes: float64(1), int64(1)
memory usage: 128.0 bytes
Ted Petrou
quelle