Pandas 소개
- Pandas: Python에서 데이터 분석 및 조작을 위한 핵심 라이브러리 (Panel Data System의 약자).
- 특징:
- Excel, CSV, DB 등 다양한 파일 읽기/쓰기 용이.
- 필터링, 정렬, 그룹화 등 강력한 데이터 조작 기능.
- 결측치 처리가 편리함.
파일 불러오기
df = pd.read_excel('파일명.xlsx')
- 결과: DataFrame 객체(2차원 표) 반환.
FileNotFound 에러
- 원인: 코드 파일(.ipynb)과 데이터 파일(.xlsx)이 서로 다른 폴더에 있을 때 발생.
- 해결책:
- 파일을 같은 폴더로 이동.
- 절대 경로 사용 (예:
C:/Users/user/Desktop/data/car.xlsx).
데이터 확인하기
df: 전체 데이터 확인 (너무 길면 중간 생략).
df.head(n): 상위 n행 확인 (기본값 5).
df.tail(n): 하위 n행 확인 (기본값 5).
DataFrame의 구조
- Index (인덱스): 행(row)을 식별하는 이름 (기본 0부터 시작).
- Columns (컬럼): 열(column)을 식별하는 이름.
0 기반 인덱싱 (Zero-based Indexing)
- Python을 포함한 대부분의 현대 프로그래밍 언어(C, Java 등)는 숫자를 셀 때 0부터 시작함.
- 예: 5개 데이터가 있을 때 순서는 0, 1, 2, 3, 4.
- 장점: 위치 계산 등 프로그래밍 수식에서 유리함.
데이터 정보 확인
df.shape: (행 개수, 열 개수) 튜플 반환.
df.info(): 데이터 타입, 결측치 여부, 메모리 사용량 등 요약 정보.
df.dtypes: 각 열의 데이터 타입 확인.
열 선택 (Indexing)
파일 저장하기
df.to_excel('저장할_이름.xlsx', index=False)
df.to_csv('저장할_이름.csv', index=False)