탐색적 데이터 분석 (EDA)
EDA란?
- Exploratory Data Analysis: 특별한 가설 없이 데이터의 주요 특성을 시각적/통계적으로 조사하는 과정.
- 목적:
- 데이터의 특성과 구조 이해.
- 이상치(Outlier) 및 결측치(Missing Value) 발견.
- 적절한 분석 방법/모형 선택.
- 새로운 가설 생성.
- 참고: 가설을 검증하는 과정은 확인적(Confirmatory) 데이터 분석이라고 함.
변수의 종류
- 범주형 변수 (Categorical Variable)
- 종류, 이름, 범주 등을 나타냄.
- 덧셈 등 연산이 무의미함.
- 예: 성별, 혈액형, 주거 형태, 지역.
- 연속형 변수 (Continuous Variable)
- 연속적인 수치를 나타냄.
- 간격이 일정하고 연산이 가능함.
- 예: 키, 몸무게, 가격, 온도.
기술 통계 (Descriptive Statistics)
- 데이터를 요약하고 묘사하는 통계량.
중심 경향치 (Central Tendency)
데이터가 어디에 몰려있는지를 나타냄.
- 평균 (Mean):
- 모든 값의 합을 개수로 나눈 값.
- 극단값(Outlier)에 민감함 (예: 소득 평균은 고소득자에 의해 왜곡될 수 있음).
df.price.mean() - 중간값 (Median):
- 크기 순으로 정렬했을 때 정중앙에 위치한 값.
- 극단값의 영향을 덜 받음.
- 짝수 개일 경우 가운데 두 값의 평균.
df.price.median()
평균 vs 중간값: 소득 데이터처럼 불평등이 심한 경우 평균이 중간값보다 훨씬 높게 나타날 수 있으므로 둘 다 확인하는 것이 중요함.
변산성 측정치 (Variability)
데이터가 얼마나 퍼져있는지를 나타냄.
- 분산 (Variance):
- 편차(값 - 평균)의 제곱의 평균.
df.price.var()
- 표준편차 (Standard Deviation):
- 분산의 제곱근. 원래 데이터와 단위가 같아져서 해석하기 용이함.
df.price.std()
기타 통계량
- 최소/최대:
min(),max() - 분위수 (Quantile): 데이터를 크기 순으로 나열했을 때 특정 위치의 값.
df.price.quantile(0.25)(하위 25%, 1사분위수)
- 요약 통계량 확인:
df.describe()(개수, 평균, 표준편차, 4분위수 등 한 번에 확인).
범주형 변수의 분석
- 고유값 확인:
df.model.unique() - 고유값 개수:
df.model.nunique() - 빈도수 확인:
df.model.value_counts()(각 범주별 데이터 개수 집계).