회귀분석
회귀분석
선형 모형
- 요인과 반응의 관계를 직선 형태(선형)로 모형화
- : 종속 변수
- : 독립 변수
- : 가중치 또는 기울기
- : 절편(일 때 의 예측치)
- : 예측 오차
실습 데이터 열기
import pandas as pd # pandas 모듈을 불러들임(별칭: pd)
df = pd.read_excel('strength_data.xlsx') # strength_data.xlsx 파일 내용을 df 변수에 할당
df # df 변수 내용 보기
통상 최소 제곱법(Ordinary Least Squares)
- 모형의 계수를 추정하는 방법 중에 하나
- 오차의 제곱합을 최소화하는 계수를 찾음
from statsmodels.formula.api import ols
FORMULA = 'strength ~ group' # 회귀모형의 관계식
DATA = df # 분석할 데이터
m = ols(FORMULA, data=DATA).fit() # 모형 생성
m.summary() # 모형 요약 출력
group[T.Old]의 coef가 계수 추정치(Old의 평균 - New의 평균)
결정계수(R 제곱)
- 모형 요약 우측 상단에
R-squared로 출력 - 회귀모형의 설명력을 나타내는 지표
- 0에서 1 사이의 값을 가지며, 1에 가까울수록 모형이 데이터를 잘 설명함
- 계산 방법: 모형의 설명된 변동성 / 반응 변수의 총 변동성 = 1 - 오차의 변동성 / 반응 변수의 총 변동성
- 오차가 0이면 결정계수는 1이 됨
- "모형이 반응 변수의 변동성에서 (결정계수 * 100)%를 설명한다"라고 읽음