logo

[time-series] 더미코딩

범주형 변수는 기울기를 곱할 수 없습니다. 그래서 회귀분석에서 범주형 변수를 독립변수로 투입할 때는 연속 변수로 변환하여 모형에 투입하게 됩니다. 이렇게 변환하는 방법에는 여러 가지가 있으나, 가장 많이 사용하는 것은 더미 코딩(dummy coding)이라는 방법입니다.

범주형 변수에 범주가 k개 있을 경우 k-1개의 더미 변수를 대신 투입합니다. 이때 범주 중에 하나를 기준(reference)으로 지정합니다. 기본적으로 ABC 순으로 먼저 나오는 것이 기준입니다(변경할 수도 있음). 기준를 제외한 범주들은 범주별로 더미 변수를 하나씩 가집니다.

 

범주가 2개인 경우

중고차 데이터에서 model 변수에는 AvanteK3 두 가지 범주가 있습니다. ABC 순으로 Avante가 먼저이므로 이를 기준 범주로 지정하고, 나머지 K3에 해당하는 더미변수 model[T.K3]를 모형에 투입합니다. 이때 더미변수는 다음과 같이 변환됩니다.

| model | model[T.K3] | | ----- | ----------- | | Avante| 0 | | K3 | 1 |

간단히 생각하면 0 = No, 1 = Yes로 이해하면 됩니다.