탐색적 데이터 분석 (EDA)

EDA란?

Exploratory Data Analysis: 특별한 가설 없이 데이터의 주요 특성을 시각적/통계적으로 조사하는 과정.
목적:
- 데이터의 특성과 구조 이해.
- 이상치(Outlier) 및 결측치(Missing Value) 발견.
- 적절한 분석 방법/모형 선택.
- 새로운 가설 생성.
참고: 가설을 검증하는 과정은 확인적(Confirmatory) 데이터 분석이라고 함.

변수의 종류

범주형 변수 (Categorical Variable)
- 종류, 이름, 범주 등을 나타냄.
- 덧셈 등 연산이 무의미함.
- 예: 성별, 혈액형, 주거 형태, 지역.
연속형 변수 (Continuous Variable)
- 연속적인 수치를 나타냄.
- 간격이 일정하고 연산이 가능함.
- 예: 키, 몸무게, 가격, 온도.

기술 통계 (Descriptive Statistics)

데이터를 요약하고 묘사하는 통계량.

중심 경향치 (Central Tendency)

데이터가 어디에 몰려있는지를 나타냄.

평균 (Mean):
- 모든 값의 합을 개수로 나눈 값.
- 극단값(Outlier)에 민감함 (예: 소득 평균은 고소득자에 의해 왜곡될 수 있음).
```
df.price.mean()
```
중간값 (Median):
- 크기 순으로 정렬했을 때 정중앙에 위치한 값.
- 극단값의 영향을 덜 받음.
- 짝수 개일 경우 가운데 두 값의 평균.
```
df.price.median()
```

평균 vs 중간값: 소득 데이터처럼 불평등이 심한 경우 평균이 중간값보다 훨씬 높게 나타날 수 있으므로 둘 다 확인하는 것이 중요함.

변산성 측정치 (Variability)

데이터가 얼마나 퍼져있는지를 나타냄.

분산 (Variance):
- 편차(값 - 평균)의 제곱의 평균.
- df.price.var()
표준편차 (Standard Deviation):
- 분산의 제곱근. 원래 데이터와 단위가 같아져서 해석하기 용이함.
- df.price.std()

기타 통계량

최소/최대: min(), max()
분위수 (Quantile): 데이터를 크기 순으로 나열했을 때 특정 위치의 값.
- df.price.quantile(0.25) (하위 25%, 1사분위수)
요약 통계량 확인: df.describe() (개수, 평균, 표준편차, 4분위수 등 한 번에 확인).

범주형 변수의 분석

고유값 확인: df.model.unique()
고유값 개수: df.model.nunique()
빈도수 확인: df.model.value_counts() (각 범주별 데이터 개수 집계).

Previous: Pandas 라이브러리
Next: 한 변수의 분포 시각화