다중회귀분석
다중회귀분석
독립변수가 2개 이상인 회귀분석
관계식에서 +로 변수를 구분
m = ols('price ~ mileage + model', df).fit()
m.summary()
m = lm(price ~ mileage + model, df)
summary(m)
통계적 통제
독립변수 x와 상관관계가 높은 요소 z가 존재할 경우
z가 종속변수 y에 미치는 영향이 x의 기울기에 간접 반영될 수 있음
실험적 통제: 데이터에서 z를 일정하게 유지하여, z의 영향을 제거
통계적 통제: z를 모형에 독립변수로 함께 포함하여, x의 기울기에 z의 영향이 간접 반영되지 않도록 함
표준화
다중회귀분석에서 독립변수는 단위가 다르므로 종속변수에 대한 영향력을 비교하기 어려움
표준화:
$$ \frac{X - \text{평균}}{\text{표준편차}} $$
표준화를 하면 평균 = 0, 표준편차 = 1이 됨
표준화를 통해 변수의 단위를 제거하여 상대적인 영향력을 비교할 수 있음
m = ols('price ~ scale(mileage) + scale(year)', df).fit()
m.summary()
m = lm(price ~ scale(mileage) + scale(year), df)
summary(m)
Question
안전도 데이터를 다운받아 risk
를 종속변수로,
length
, horsepower
, city_mpg
, doors
을 독립변수로 회귀분석을 해보세요.
(01) 위의 회귀분석에서 horsepower
의 기울기는 얼마입니까?
(02) 위의 회귀분석에서 doors
에서 two
와 four
의 위험도 차이는 어떻습니까? 해석해보십시오.
(03) 위의 회귀분석에 따르면 length=176.6, horsepower=102, city_mpg=24, doors=four인 차량의 위험도는 몇 점입니까?
(04) 위의 회귀분석을 모형 1이라고 할 때, 모형 1에서 horsepower를 제외한 모형 2를으로 만들어 분석해보십시오. 두 모형을 비교할 때 어떤 모형이 더 낫습니까?
- 모형 1
- 모형 2
- 차이가 없다
- 알 수 없다
Question
(01) 중고차 데이터에서 데이터에 존재하는 모든 변수들을 독립변수로 투입하여 price
를 예측하는 회귀분석을 실시하세요. 이 모형은 price
의 분산에서 몇 %를 설명합니까?
(02) 위의 회귀분석에서 mileage
의 기울기는 얼마입니까?
(03) 위의 회귀분석에서 아반떼와 K3의 가격 차이는 어떻습니까? 해석해보십시오.
(04) 위의 회귀분석에 따르면 주행거리 10만 Km이고 자차 피해액(my_car_damage
)이 20만원, 상대차 피해액(other_car_damage
)가 100만원인 2012년형 아반떼 가격은 얼마로 예측됩니까?
Question
(01) birthsmokers.xlsx를 다운받아 열어보세요.
변수 Wgt
는 신생아 체중(g), Gest
는 임신 기간(주), Smoke
는 산모의 흡연 여부를 나타냅니다.
신생아 체중을 종속 변수로 하고, 임신 기간과 흡연 여부를 독립변수로 다중회귀분석을 하려면 관계식을 어떻 세워야 합니까?
- Wgt ~ Gest + Smoke
- Gest + Smoke ~ Wgt
(02) 신생아 체중을 종속 변수로 하고, 임신 기간과 흡연 여부를 독립변수로 다중회귀분석을 해보세요.
이 분석에서 Gest
의 기울기는 무엇입니까?
(03) Gest
의 기울기의 p-value는 .05보다 작습니까??
- 작다(p < .05)
- 크다(p > .05)
(04) Gest
의 기울기의 95% 신뢰구간은?
(05) 위의 분석 결과를 종합하면 다른 변수가 같을 때 임신기간 Gest
가 길어질 수록, 신생아의 체중은 어떻게 된다고 볼 수 있습니까(유의수준 5%)?
- 늘어난다
- 줄어든다
- 결론을 유보한다
(06) 이 분석에서 Smoke
변수의 기준 범주는 무엇입니까?
- yes
- no
(07) 산모가 흡연자(Smoke == "yes"
)인 경우 비흡연자(Smoke == "no"
)인 경우에 비해 신생아 체중이 얼마나 차이가 납니까?
(08) Smoke[T.yes]
의 기울기의 p-value는 .05보다 작습니까?
- 작다(p < .05)
- 크다(p > .05)
(09) Smoke
의 기울기의 95% 신뢰구간은?
(10) 위의 분석 결과를 종합하면 다른 변수가 같을 때 산모가 흡연자일 경우, 신생아의 체중은 어떻게 된다고 볼 수 있습니까(유의수준 5%)?
- 늘어난다
- 줄어든다
- 결론을 유보한다
(11) 이 분석은 신생아 체중의 분산에서 몇 %를 설명합니까?
Question
(01) iqsize.xlsx를 다운받아 열어보세요.
변수 PIQ
는 동작성 지능, Brain
은 두뇌의 크기, Height
는 키(inch), Weight
는 몸무게(pound)를 나타냅니다.
동작성 지능을 종속 변수로, 몸무게와 키를 독립변수로 다중회귀분석을 하려면 관계식을 어떻게 세워야 합니까?
- PIQ ~ Height + Weight
- Height + Weight ~ PIQ
(02) 동작성 지능을 종속 변수로, 몸무게 Weight
와 키 Height
를 독립변수로 하는 모형 1로 다중회귀분석을 해보세요. Height
의 기울기는 p-value가 .05보다 작습니까?
- 작다(p < .05)
- 크다(p > .05)
(03) 모형 1에 두뇌의 크기 Brain
을 추가한 모형 2로 다중회귀분석으로 분석해보세요. Height
의 기울기는 p-value가 .05보다 작습니까?
- 작다(p < .05)
- 크다(p > .05)
(04) 모형 1과 모형 2의 분석 결과를 비교할 때 알 수 있는 사실은?
- Brain의 통계적 통제 여부에 따라 Height의 기울기에 대한 분석 결과가 달라질 수 있다
- Height의 기울기는 다른 변수와는 무관한 영원불멸한 우주와 인생에 대한 궁극적 정답이다
(05) 모형 2에서 Brain의 기울기는 얼마입니까?
(06) Brain의 p-value는 .05보다 작습니까?
- 작다(p < .05)
- 크다(p > .05)
(07) 다른 변수가 같을 때, 두뇌가 클 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?
- 높아진다
- 낮아진다
- 결론을 유보한다
(08) 모형 2에서 Height의 기울기는 얼마입니까?
(09) Height의 기울기의 95% 신뢰구간은 얼마입니까?
(10) 다른 변수가 같을 때, 키가 클 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?
- 높아진다
- 낮아진다
- 결론을 유보한다
(11) 모형 2에서 Weight의 기울기는 얼마입니까?
(12) 다른 변수가 같을 때, 몸무게가 무거워질 수록 동작성 지능은 어떻게 된다고 결론내릴 수 있습니까(유의수준 5%)?
- 높아진다
- 낮아진다
- 결론을 유보한다
Question
선형 회귀분석에 대한 설명으로 잘못된 것은?
- 연속인 종속변수를 예측한다
- y = wx + b 형태의 식을 사용한다
- 기울기는 독립변수가 1 증가할 때 종속변수의 변화이다
- 잔차제곱합을 최대로 하는 기울기와 절편을 찾는다
Question
R제곱에 대한 설명으로 잘못된 것은?
- 모형이 종속변수의 분산을 설명하는 비율이다
- 예측이 얼마나 정확한가를 나타낸다
- 독립변수의 개수가 다른 모형을 비교할 때 사용할 수 있다
- 보통 0~1 사이이며 클 수록 좋다
Question
모형 비교를 위해 보정한 적합도 지수가 아닌 것은?
- 로그우도
- 수정 R제곱
- AIC
- BIC
Question
기울기 옆에 표시되는 p-value의 의미는?
- p < 유의수준이면 신뢰구간이 +에만 있거나 또는 -에만 있다
- p < 유의수준이면 신뢰구간이 +와 -에 걸쳐 있다
Question
냥이, 멍뭉, 토깽 3개의 범주를 가지는 반려동물 변수로 귀여움을 예측하는 회귀분석을 하였다고 할 때 설명으로 잘못된 것은?
- 독립변수에 반려동물을 대신해서 더미변수 "반려동물[T.멍뭉]"과 "반려동물[T.토깽]"이 추가될 것이다.
- 반려동물[T.멍뭉]은 반려동물이 멍뭉일 때 1이고, 이외에는 0일 것이다
- 반려동물[T.멍뭉]은 멍뭉의 귀여움을 나타낼 것이다
- 이 회귀분석의 절편은 냥이의 귀여움을 나타낼 것이다
Question
회귀분석에서 p > 유의수준인 독립변수는 모형에서 제외해야 한다
- 예
- 아니오
Question
모형 비교를 위한 적합도 지수가 아닌 것은?
- R제곱
- 수정 R제곱
- AIC
- BIC
price ~ scale(mileage) + scale(year)
에 대한 설명으로 잘못된 것은?
- mileage와 year를 표준화하여 회귀분석에 투입한다
- 독립변수 각각의 평균은 모두 0이 된다
- 독립변수의 상대적 위치 변화에 대한 가격 변화를 알 수 있게 된다
- mileage와 year가 모두 정규분포를 따른다
Question
단계적 회귀분석은 k개의 변수가 있으면, $2^k$개의 모든 조합을 검토하는 방법이다
- 예
- 아니오
Question
단계적 회귀분석에서 전진 선택과 후진 선택의 결과는 같다
- 예
- 아니오