열(columns)
판다스에서 데이터프레임의 열을 다루는 방법을 알아보겠습니다.
먼저 판다스를 불러들이고, 예제 데이터를 엽니다.
import pandas as pd
df = pd.read_excel('census.xlsx')
열 이름
.columns로 데이터 프레임의 열 이름을 확인할 수 있습니다.
df.columns
Index(['age', 'workclass', 'fnlwgt', 'education', 'education_num',
'marital_status', 'occupation', 'relationship', 'race', 'sex',
'capital_gain', 'capital_loss', 'hours_per_week', 'native_country',
'income'],
dtype='object')열 선택
df['열 이름']과 같이 열을 선택할 수 있습니다. 아래는 age 열을 선택한 예입니다.
df['age']
0 39
1 50
2 38
..
32558 58
32559 22
32560 52
Name: age, Length: 32561, dtype: int64df[['열이름1', '열이름2', ...]]와 같이 여러 개의 열 이름을 입력하면 여러 열을 선택할 수 있습니다.
df[['age', 'education']]
| age | education | |
|---|---|---|
| 0 | 39 | Bachelors |
| 1 | 50 | Bachelors |
| 2 | 38 | HS-grad |
| ... | ... | ... |
| 32558 | 58 | HS-grad |
| 32559 | 22 | HS-grad |
| 32560 | 52 | HS-grad |
32561 rows × 2 columns
dtypes와 dtype
.dtypes로 각 열의 자료형을 확인할 수 있습니다. int는 정수형, float은 실수형입니다. object는 기타로서 주로 문자열(str)입니다. 정수형과 실수형 뒤에 붙은 수는 몇 비트 자료형인지를 나타냅니다. 예를 들어 int64는 64비트 정수형으로 2진수 64자리의 수를 표현할 수 있습니다. 10진수로는 -9,223,372,036,854,775,808부터 9,223,372,036,854,775,807까지입니다. 이렇게 큰 수를 표현할 필요가 없는 경우에는 int32나 int16처럼 더 작은 수만 표현할 수 있는 자료형을 사용해서 메모리를 아끼고, 계산 속도를 높이기도 합니다.
df.dtypes
age int64
workclass object
fnlwgt int64
...
hours_per_week int64
native_country object
income object
Length: 15, dtype: object한 열의 자료형을 확인할 때는 .dtype을 사용합니다.
df['age'].dtype
dtype('int64')