전이 학습

전이 학습 (Transfer Learning)

딥러닝 모형이 커질수록 더 복잡한 함수를 근사할 수 있으며, 이는 곧 성능의 증가로 이어집니다.
그러나 큰 모형에는 더 많은 데이터와 더 많은 계산이 필요하므로 비용 또한 증가합니다.
서로 다른 문제라도 공유하는 기본 요소들이 존재합니다. (예: 이미지 처리에서 수평선, 수직선의 처리 등)
전이 학습은 하나의 **근원 문제(source)**에 대량의 데이터로 **사전 학습(pretraining)**을 시켜, 다양한 문제를 해결하는 데 필요한 일반적인 표상(representation)을 먼저 학습하게 합니다.
이후 새로운 **대상 문제(target)**에 소량의 데이터로 미세 조정(fine-tuning) 과정을 거치면, 적은 데이터만으로도 빠르게 높은 성능을 낼 수 있습니다.

기반 모형 (Foundation Model)

컴퓨터 비전이나 자연어 처리 등 넓은 종류의 분야에 범용적으로 적용할 수 있는 하나의 거대한 모형을 말합니다. 이 기반 모형을 대량의 데이터로 사전 학습한 후, 개별 과업(task)에 맞춰 미세하게 수정(fine-tuning)하여 사용합니다.

전이 학습의 방식

전이 학습에는 크게 세 가지 접근 방식이 있습니다.

전체 미세 조정: 사전 학습된 부분을 포함하여 모형 전체의 파라미터를 대상 문제에 맞게 미세 조정합니다.
특징 추출기(Feature Extractor)로 사용: 사전 학습된 모형의 전반부는 고정된 특징 추출기로 사용하고, 후반부에 새로운 분류기(classifier)만 추가하여 이 추가된 부분만 학습시킵니다.
영샷 러닝 (Zero-shot Learning): 사전 학습된 모형을 추가 학습 없이 그대로 대상 문제 모델로 적용하여 사용합니다.

사전 학습과 미세 조정 (Pretraining and Fine-tuning)

Pretraining: Data 1을 활용하여 근원 문제(Upstream Task)의 모형을 학습시키고, 지식 전이(Knowledge Transfer)를 일으킵니다.
Fine-tuning: 전이된 지식을 바탕으로 Data 2를 활용하여 대상 문제(Downstream Task)의 모형을 학습합니다.

미세 조정의 특징

일반적인 딥러닝 모형 학습은 파라미터를 무작위로 초기화(random initialization)하여 시작합니다.
동종의 과제(예: 다양한 자연어 처리 과제)는 서로 비슷한 특징을 공유하므로, 무작위 초기화보다는 사전 학습된 최적 파라미터에서 출발하면 대상 문제의 최적 파라미터와 유사할 가능성이 높습니다.
그러므로 다른 문제에 학습시킨 모형을 초기값으로 하여 추가 학습을 진행하는 것이 훨씬 유리합니다.
(이미 최적 파라미터 근방에 위치하고 있으므로) 미세 조정을 할 때는 일반적으로 근원 문제 학습 시보다 더 **작은 학습률(learning rate)**을 사용합니다.

GPT의 시작 (Radford, 2018)

"생성적 사전 학습(Generative Pre-Training)을 통한 언어 이해의 개선"

핵심 아이디어 2가지:

언어 이해 과제를 본격적으로 수행하기 전에 먼저 모형을 사전 학습 시키겠다.
사전 학습의 구체적인 과제로써 **생성(Generation)**과제를 수행하게 하겠다.

생성으로 사전 학습을 하는 이유: 언어 모형 자체가 문장의 다음 단어를 예측하는 구조이므로, 대량의 텍스트만 주어지면 별도의 사람이 달아주는 데이터 레이블(Data Labeling) 과정이 불필요하기 때문입니다.

GPT 미세 조정의 과제별 구성

다양한 하위 과제(Task)를 수행할 때 텍스트를 특수 토큰을 활용해 정해진 형식으로 구성하여 모형에 일렬로 배열하여 입력합니다.

특수 토큰:
- start: 문장의 시작
- delim: 두 문장 이상의 입력이 필요할 경우 문장들을 구분하는 역할
- extract: 문장의 끝

과제별 텍스트를 이 토큰들을 조합하여 한 줄의 입력 시퀀스로 만들고, GPT는 최종적으로 일종의 점수(score)를 출력합니다.

분류 (Classification): 텍스트를 입력하고 최종 출력값을 이용해 분류를 수행합니다. (예: 감성 분석의 경우 긍정(1)/부정(0)으로 분류)

Radford (2018)의 과제 수행 방식의 장단점

장점: 언어를 스스로 생성하며 학습하는 '생성적 사전 학습' 방식이 자연어 이해 과제 전반에 걸쳐 큰 도움이 됩니다.
- 더 많은 층(Layer)을 사용할수록, 그리고 사전 학습을 더 많이 할수록 전이 학습에 긍정적인 영향을 미친다는 것이 입증되었습니다.
단점: 여전히 각기 다른 과제를 수행하기 위해서는 매번 해당 과제에 맞춘 미세 조정(Fine-tuning)이 반드시 필요하다는 한계가 있었습니다.

Previous: 언어 모형
Next: GPT 미세 조정