logo

Pandas 라이브러리

Pandas 소개

  • Pandas: Python에서 데이터 분석 및 조작을 위한 핵심 라이브러리 (Panel Data System의 약자).
  • 특징:
    • Excel, CSV, DB 등 다양한 파일 읽기/쓰기 용이.
    • 필터링, 정렬, 그룹화 등 강력한 데이터 조작 기능.
    • 결측치 처리가 편리함.

파일 불러오기

  • 관례적으로 pd라는 별칭 사용.
import pandas as pd
  • Excel 파일 읽기:
df = pd.read_excel('파일명.xlsx')
# 특정 시트 지정: sheet_name='시트명'
  • 결과: DataFrame 객체(2차원 표) 반환.

FileNotFound 에러

  • 원인: 코드 파일(.ipynb)과 데이터 파일(.xlsx)이 서로 다른 폴더에 있을 때 발생.
  • 해결책:
    1. 파일을 같은 폴더로 이동.
    2. 절대 경로 사용 (예: C:/Users/user/Desktop/data/car.xlsx).

데이터 확인하기

  • df: 전체 데이터 확인 (너무 길면 중간 생략).
  • df.head(n): 상위 n행 확인 (기본값 5).
  • df.tail(n): 하위 n행 확인 (기본값 5).

DataFrame의 구조

  • Index (인덱스): 행(row)을 식별하는 이름 (기본 0부터 시작).
  • Columns (컬럼): 열(column)을 식별하는 이름.
df.index
df.columns

0 기반 인덱싱 (Zero-based Indexing)

  • Python을 포함한 대부분의 현대 프로그래밍 언어(C, Java 등)는 숫자를 셀 때 0부터 시작함.
  • 예: 5개 데이터가 있을 때 순서는 0, 1, 2, 3, 4.
  • 장점: 위치 계산 등 프로그래밍 수식에서 유리함.

데이터 정보 확인

  • df.shape: (행 개수, 열 개수) 튜플 반환.
  • df.info(): 데이터 타입, 결측치 여부, 메모리 사용량 등 요약 정보.
  • df.dtypes: 각 열의 데이터 타입 확인.

열 선택 (Indexing)

  • 하나의 열 선택 (Series 반환):
df['열이름'] 
# 또는
df.열이름  # (공백/특수문자가 없을 때 가능)
  • 여러 열 선택 (DataFrame 반환):
    • 대괄호를 두 번 [[...]] 사용해야 함.
df[['열이름1', '열이름2']]

파일 저장하기

  • Excel로 저장:
df.to_excel('저장할_이름.xlsx', index=False) 
# index=False: 불필요한 행 번호 저장 방지
  • CSV로 저장:
df.to_csv('저장할_이름.csv', index=False)
Previous
Python 데이터 포맷