Pandas 라이브러리

Pandas 소개

Pandas: Python에서 데이터 분석 및 조작을 위한 핵심 라이브러리 (Panel Data System의 약자).
특징:
- Excel, CSV, DB 등 다양한 파일 읽기/쓰기 용이.
- 필터링, 정렬, 그룹화 등 강력한 데이터 조작 기능.
- 결측치 처리가 편리함.

파일 불러오기

관례적으로 pd라는 별칭 사용.

import pandas as pd

Excel 파일 읽기:

df = pd.read_excel('파일명.xlsx')
# 특정 시트 지정: sheet_name='시트명'

결과: DataFrame 객체(2차원 표) 반환.

FileNotFound 에러

원인: 코드 파일(.ipynb)과 데이터 파일(.xlsx)이 서로 다른 폴더에 있을 때 발생.
해결책:
1. 파일을 같은 폴더로 이동.
2. 절대 경로 사용 (예: C:/Users/user/Desktop/data/car.xlsx).

데이터 확인하기

df: 전체 데이터 확인 (너무 길면 중간 생략).
df.head(n): 상위 n행 확인 (기본값 5).
df.tail(n): 하위 n행 확인 (기본값 5).

DataFrame의 구조

Index (인덱스): 행(row)을 식별하는 이름 (기본 0부터 시작).
Columns (컬럼): 열(column)을 식별하는 이름.

df.index
df.columns

0 기반 인덱싱 (Zero-based Indexing)

Python을 포함한 대부분의 현대 프로그래밍 언어(C, Java 등)는 숫자를 셀 때 0부터 시작함.
예: 5개 데이터가 있을 때 순서는 0, 1, 2, 3, 4.
장점: 위치 계산 등 프로그래밍 수식에서 유리함.

데이터 정보 확인

df.shape: (행 개수, 열 개수) 튜플 반환.
df.info(): 데이터 타입, 결측치 여부, 메모리 사용량 등 요약 정보.
df.dtypes: 각 열의 데이터 타입 확인.

열 선택 (Indexing)

하나의 열 선택 (Series 반환):

df['열이름'] 
# 또는
df.열이름  # (공백/특수문자가 없을 때 가능)

여러 열 선택 (DataFrame 반환):
- 대괄호를 두 번 [[...]] 사용해야 함.

df[['열이름1', '열이름2']]

파일 저장하기

Excel로 저장:

df.to_excel('저장할_이름.xlsx', index=False) 
# index=False: 불필요한 행 번호 저장 방지

CSV로 저장:

df.to_csv('저장할_이름.csv', index=False)

Previous: Python 데이터 포맷
Next: 탐색적 데이터 분석 (EDA)