logo

탐색적 데이터 분석 (EDA)

EDA란?

  • Exploratory Data Analysis: 특별한 가설 없이 데이터의 주요 특성을 시각적/통계적으로 조사하는 과정.
  • 목적:
    • 데이터의 특성과 구조 이해.
    • 이상치(Outlier) 및 결측치(Missing Value) 발견.
    • 적절한 분석 방법/모형 선택.
    • 새로운 가설 생성.
  • 참고: 가설을 검증하는 과정은 확인적(Confirmatory) 데이터 분석이라고 함.

변수의 종류

  1. 범주형 변수 (Categorical Variable)
    • 종류, 이름, 범주 등을 나타냄.
    • 덧셈 등 연산이 무의미함.
    • 예: 성별, 혈액형, 주거 형태, 지역.
  2. 연속형 변수 (Continuous Variable)
    • 연속적인 수치를 나타냄.
    • 간격이 일정하고 연산이 가능함.
    • 예: 키, 몸무게, 가격, 온도.

기술 통계 (Descriptive Statistics)

  • 데이터를 요약하고 묘사하는 통계량.

중심 경향치 (Central Tendency)

데이터가 어디에 몰려있는지를 나타냄.

  • 평균 (Mean):
    • 모든 값의 합을 개수로 나눈 값.
    • 극단값(Outlier)에 민감함 (예: 소득 평균은 고소득자에 의해 왜곡될 수 있음).
    df.price.mean()
    
  • 중간값 (Median):
    • 크기 순으로 정렬했을 때 정중앙에 위치한 값.
    • 극단값의 영향을 덜 받음.
    • 짝수 개일 경우 가운데 두 값의 평균.
    df.price.median()
    

평균 vs 중간값: 소득 데이터처럼 불평등이 심한 경우 평균이 중간값보다 훨씬 높게 나타날 수 있으므로 둘 다 확인하는 것이 중요함.

변산성 측정치 (Variability)

데이터가 얼마나 퍼져있는지를 나타냄.

  • 분산 (Variance):
    • 편차(값 - 평균)의 제곱의 평균.
    • df.price.var()
  • 표준편차 (Standard Deviation):
    • 분산의 제곱근. 원래 데이터와 단위가 같아져서 해석하기 용이함.
    • df.price.std()

기타 통계량

  • 최소/최대: min(), max()
  • 분위수 (Quantile): 데이터를 크기 순으로 나열했을 때 특정 위치의 값.
    • df.price.quantile(0.25) (하위 25%, 1사분위수)
  • 요약 통계량 확인: df.describe() (개수, 평균, 표준편차, 4분위수 등 한 번에 확인).

범주형 변수의 분석

  • 고유값 확인: df.model.unique()
  • 고유값 개수: df.model.nunique()
  • 빈도수 확인: df.model.value_counts() (각 범주별 데이터 개수 집계).
Previous
Pandas 라이브러리