문턱값과 Trade-off
- 분류 모델(로지스틱 회귀 등)은 확률을 예측함. 이 확률을 0 또는 1로 바꿀 때 기준이 되는 값이 문턱값(Threshold) (기본 0.5).
- 문턱값을 낮추면:
- 양성으로 예측하는 비율이 늘어남.
- 재현도(Recall) 증가, 정밀도(Precision) 감소.
- 문턱값을 높이면:
- 양성으로 예측하는 기준이 까다로워짐.
- 정밀도(Precision) 증가, 재현도(Recall) 감소.
최적의 문턱값 찾기
- 정밀도와 재현도 중 무엇이 더 중요한지에 따라 선택.
- 일반적인 성능 최적화를 위해 F1 Score가 최대가 되는 문턱값을 찾기도 함.
ROC 곡선 (Receiver Operating Characteristic Curve)
- 문턱값을 변화시키면서 모델의 성능 변화를 나타낸 곡선.
- 가로축: FPR (1 - 특이도)
- 세로축: TPR (재현도)
- AUC (Area Under the Curve): 곡선 아래의 면적.
- 1에 가까울수록 좋은 성능.
- 0.5에 가까우면 무작위 예측(Random guess) 수준.