지도학습 - 분류

로지스틱 회귀 (Logistic Regression)

이름은 회귀지만 실제로는 분류 모델 (이진 분류).
선형 결합 결과( $z$ )에 **로지스틱 함수(시그모이드)**를 적용하여 0~1 사이의 확률값으로 변환.

σ (z) = \frac{1}{1 + e ^{- z}}

해석: 출력값을 '양성 클래스(1)일 확률'로 해석.

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(max_iter=1000)
lr.fit(x_train, y_train)

의사결정나무 (Decision Tree)

스무고개 원리.
특징을 하나씩 검사하여 불순도(Impurity)를 낮추는 방향으로 데이터를 분할(분기).
장점: 해석이 쉽고 직관적. 데이터 스케일에 민감하지 않음.
단점: 과대적합(Overfitting) 발생 가능성 높음.

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(min_samples_leaf=10, random_state=42)
dt.fit(x_train, y_train)

시각화: plot_tree 함수로 의사결정 과정을 그림으로 확인 가능.

어떤 방법을 쓸 것인가? (No Free Lunch)

공짜 점심은 없다 (No Free Lunch Theorem): 모든 문제에 대해 항상 우월한 단 하나의 알고리즘은 없음.
데이터의 특성에 따라 적합한 방법이 다름.
- 비정형 데이터(이미지, 텍스트) $\to$ 딥러닝이 강세.
- 정형 데이터(표) $\to$ 의사결정나무 계열(Random Forest, XGBoost 등)이 강세인 경우가 많음.
여러 모델을 시도하고 검증(Validation)해보는 것이 최선.

Previous: 지도학습 - 회귀
Next: 혼동 행렬