logo

혼동 행렬

개요

  • 분류 모델의 성능을 평가할 때, 단순히 맞/틀림을 넘어 어떻게 틀렸는지를 세분화하여 보여주는 표.
  • 실제 클래스(True/False)와 예측 클래스(Positive/Negative)의 조합으로 4가지 경우의 수 발생.

구조

예측: 음성 (0)예측: 양성 (1)
실제: 음성 (0)TN (True Negative)
진음성: 잘 맞춤 (아님을 아님으로)
FP (False Positive)
위양성: 틀림 (아닌데 맞다고 함)
실제: 양성 (1)FN (False Negative)
위음성: 틀림 (맞는데 아니라고 함)
TP (True Positive)
진양성: 잘 맞춤 (맞음을 맞음으로)

평가 지표 (Metrics)

정확도 (Accuracy)

  • 전체 중 맞게 예측한 비율.
  • 클래스 불균형이 심할 때는 신뢰하기 어려움.

정밀도 (Precision)

  • 모델이 양성이라고 예측한 것 중 실제 양성의 비율.
  • 중요한 경우: 스팸 메일 분류 (일반 메일을 스팸으로 분류하면 안 됨 - FP를 줄여야 함).

재현도 (Recall) / 민감도 (Sensitivity)

  • 실제 양성 중 모델이 찾아낸 비율.
  • 중요한 경우: 암 진단, 사기 탐지 (놓치면 치명적임 - FN을 줄여야 함).

특이도 (Specificity)

  • 실제 음성 중 모델이 올바르게 음성으로 분류한 비율.

F1 점수 (F1 Score)

  • 정밀도와 재현도의 조화 평균.
  • 둘 다 골고루 높아야 점수가 높게 나옴.

퀴즈

예측 0예측 1
실제 090 (TN)10 (FP)
실제 15 (FN)20 (TP)
Previous
지도학습 - 분류