혼동 행렬

개요

분류 모델의 성능을 평가할 때, 단순히 맞/틀림을 넘어 어떻게 틀렸는지를 세분화하여 보여주는 표.
실제 클래스(True/False)와 예측 클래스(Positive/Negative)의 조합으로 4가지 경우의 수 발생.

구조

	예측: 음성 (0)	예측: 양성 (1)
실제: 음성 (0)	TN (True Negative) 진음성: 잘 맞춤 (아님을 아님으로)	FP (False Positive) 위양성: 틀림 (아닌데 맞다고 함)
실제: 양성 (1)	FN (False Negative) 위음성: 틀림 (맞는데 아니라고 함)	TP (True Positive) 진양성: 잘 맞춤 (맞음을 맞음으로)

평가 지표 (Metrics)

정확도 (Accuracy)

전체 중 맞게 예측한 비율.

\frac{TP + TN}{Total}

클래스 불균형이 심할 때는 신뢰하기 어려움.

정밀도 (Precision)

모델이 양성이라고 예측한 것 중 실제 양성의 비율.

\frac{TP}{TP + FP}

중요한 경우: 스팸 메일 분류 (일반 메일을 스팸으로 분류하면 안 됨 - FP를 줄여야 함).

재현도 (Recall) / 민감도 (Sensitivity)

실제 양성 중 모델이 찾아낸 비율.

\frac{TP}{TP + FN}

중요한 경우: 암 진단, 사기 탐지 (놓치면 치명적임 - FN을 줄여야 함).

특이도 (Specificity)

실제 음성 중 모델이 올바르게 음성으로 분류한 비율.

\frac{TN}{TN + FP}

F1 점수 (F1 Score)

정밀도와 재현도의 조화 평균.
둘 다 골고루 높아야 점수가 높게 나옴.

2 \times \frac{Precision \times Recall}{Precision + Recall}

퀴즈

	예측 0	예측 1
실제 0	90 (TN)	10 (FP)
실제 1	5 (FN)	20 (TP)

Previous: 지도학습 - 분류
Next: 문턱값