혼동 행렬
개요
- 분류 모델의 성능을 평가할 때, 단순히 맞/틀림을 넘어 어떻게 틀렸는지를 세분화하여 보여주는 표.
- 실제 클래스(True/False)와 예측 클래스(Positive/Negative)의 조합으로 4가지 경우의 수 발생.
구조
| 예측: 음성 (0) | 예측: 양성 (1) | |
|---|---|---|
| 실제: 음성 (0) | TN (True Negative) 진음성: 잘 맞춤 (아님을 아님으로) | FP (False Positive) 위양성: 틀림 (아닌데 맞다고 함) |
| 실제: 양성 (1) | FN (False Negative) 위음성: 틀림 (맞는데 아니라고 함) | TP (True Positive) 진양성: 잘 맞춤 (맞음을 맞음으로) |
평가 지표 (Metrics)
정확도 (Accuracy)
- 전체 중 맞게 예측한 비율.
- 클래스 불균형이 심할 때는 신뢰하기 어려움.
정밀도 (Precision)
- 모델이 양성이라고 예측한 것 중 실제 양성의 비율.
- 중요한 경우: 스팸 메일 분류 (일반 메일을 스팸으로 분류하면 안 됨 - FP를 줄여야 함).
재현도 (Recall) / 민감도 (Sensitivity)
- 실제 양성 중 모델이 찾아낸 비율.
- 중요한 경우: 암 진단, 사기 탐지 (놓치면 치명적임 - FN을 줄여야 함).
특이도 (Specificity)
- 실제 음성 중 모델이 올바르게 음성으로 분류한 비율.
F1 점수 (F1 Score)
- 정밀도와 재현도의 조화 평균.
- 둘 다 골고루 높아야 점수가 높게 나옴.
퀴즈
| 예측 0 | 예측 1 | |
|---|---|---|
| 실제 0 | 90 (TN) | 10 (FP) |
| 실제 1 | 5 (FN) | 20 (TP) |