로지스틱 회귀분석

로지스틱 회귀분석 (Logistic Regression)

y = w x + b

$x$ : 문서 내 특정 단어의 빈도
$y$ : 문서의 긍/부정(긍정 = 1, 부정 = 0)
$w$ : 가중치 또는 계수
- $w > 0$ : $x$ 가 증가할수록 $y$ 도 증가 $\to$ 긍정 단어
- $w < 0$ : $x$ 가 증가하면 $y$ 는 감소 $\to$ 부정 단어
$b$ : 절편 또는 편향

y = σ (w x + b)

σ (x) = 1/ (1 + e^{- x})

로지스틱 모형은 0~1 사이의 실수를 출력 $\to$ 확률로 해석
예시:
- 0.8인 경우 $\to$ 긍정일 확률이 80% (부정일 확률 20%)
- 0.4인 경우 $\to$ 긍정일 확률이 40% (부정일 확률 60%)
보통 0.5를 기준으로 그보다 높으면 긍정, 낮으면 부정으로 예측

**'학습'**이란 모형의 파라미터( $w$ , $b$ )를 추정하는 것
모형의 예측과 문장의 실제 긍/부정의 차이를 손실 함수로 측정하여, 손실 함수의 값을 가장 작게 만드는 파라미터를 찾음
주로 **경사하강법(Gradient Descent)**이라는 알고리즘을 사용
- 데이터의 일부(batch)를 모형에 입력한다
- 모형의 예측과 실제값을 비교하여 손실을 구한다
- 손실이 작아지는 방향으로 파라미터를 약간 수정한다
- 위의 과정을 반복한다

H (p, q) = - \sum p (x) lo g q (x)

과대적합을 막기 위한 방법들
$w$ 와 과대적합
- 기본적인 로지스틱 회귀분석은 교차 엔트로피를 가장 작게 만드는 파라미터 $w$ 를 추정
- $w$ 가 너무 커지면서 함수의 형태가 불규칙 $\to$ 과대적합
정칙화
- 손실함수 $J (w)$ 에 파라미터의 크기(norm)를 추가
- 가능한 작은 파라미터로 손실을 낮추도록 학습
- 함수형의 형태를 규칙적으로(=regular) 만들어 과대적합을 억제
종류:
- 라쏘 (Lasso, L1)
- 릿지 (Ridge, L2)
- 엘라스틱넷 (Elastic Net): 라쏘 + 릿지

J (w) + C \sum (λ ∣ w ∣ + (1 - λ) w^{2} /2)

from sklearn.linear_model import LogisticRegressionCV

model = LogisticRegressionCV(
    penalty='elasticnet', solver='saga', random_state=42,
    Cs=[0.1, 1, 10], l1_ratios=[0, 0.5, 1], max_iter=4000
)

model.fit(x_train, y_train)

model.C_

model.l1_ratio_

model.score(x_train, y_train)

model.score(x_test, y_test)

word_coef = pd.DataFrame({
    '단어': cv.get_feature_names_out(),
    '가중치': model.coef_.flat
})

word_coef.sort_values('가중치').tail(10)

word_coef.sort_values('가중치').head(10)

y_pred = model.predict(x_test)

probs = model.predict_proba(x_test)

prob = probs[:, 1]

threshold = 0.5 # 문턱값
y_pred = np.where(prob > threshold, 1, 0)