[text-mining] 전이 학습
전이 학습 (Transfer Learning)
- 딥러닝 모형이 커질수록 더 복잡한 함수를 근사할 수 있으며, 이는 곧 성능의 증가로 이어집니다.
- 그러나 큰 모형에는 더 많은 데이터와 더 많은 계산이 필요하므로 비용 또한 증가합니다.
- 서로 다른 문제라도 공유하는 기본 요소들이 존재합니다. (예: 이미지 처리에서 수평선, 수직선의 처리 등)
- 전이 학습은 하나의 **근원 문제(source)**에 대량의 데이터로 **사전 학습(pretraining)**을 시켜, 다양한 문제를 해결하는 데 필요한 일반적인 표상(representation)을 먼저 학습하게 합니다.
- 이후 새로운 **대상 문제(target)**에 소량의 데이터로 미세 조정(fine-tuning) 과정을 거치면, 적은 데이터만으로도 빠르게 높은 성능을 낼 수 있습니다.
기반 모형 (Foundation Model)
컴퓨터 비전이나 자연어 처리 등 넓은 종류의 분야에 범용적으로 적용할 수 있는 하나의 거대한 모형을 말합니다. 이 기반 모형을 대량의 데이터로 사전 학습한 후, 개별 과업(task)에 맞춰 미세하게 수정(fine-tuning)하여 사용합니다.
전이 학습의 방식
전이 학습에는 크게 세 가지 접근 방식이 있습니다.
- 전체 미세 조정: 사전 학습된 부분을 포함하여 모형 전체의 파라미터를 대상 문제에 맞게 미세 조정합니다.
- 특징 추출기(Feature Extractor)로 사용: 사전 학습된 모형의 전반부는 고정된 특징 추출기로 사용하고, 후반부에 새로운 분류기(classifier)만 추가하여 이 추가된 부분만 학습시킵니다.
- 영샷 러닝 (Zero-shot Learning): 사전 학습된 모형을 추가 학습 없이 그대로 대상 문제 모델로 적용하여 사용합니다.
사전 학습과 미세 조정 (Pretraining and Fine-tuning)
- Pretraining: Data 1을 활용하여 근원 문제(Upstream Task)의 모형을 학습시키고, 지식 전이(Knowledge Transfer)를 일으킵니다.
- Fine-tuning: 전이된 지식을 바탕으로 Data 2를 활용하여 대상 문제(Downstream Task)의 모형을 학습합니다.
미세 조정의 특징
- 일반적인 딥러닝 모형 학습은 파라미터를 무작위로 초기화(random initialization)하여 시작합니다.
- 동종의 과제(예: 다양한 자연어 처리 과제)는 서로 비슷한 특징을 공유하므로, 무작위 초기화보다는 사전 학습된 최적 파라미터에서 출발하면 대상 문제의 최적 파라미터와 유사할 가능성이 높습니다.
- 그러므로 다른 문제에 학습시킨 모형을 초기값으로 하여 추가 학습을 진행하는 것이 훨씬 유리합니다.
- (이미 최적 파라미터 근방에 위치하고 있으므로) 미세 조정을 할 때는 일반적으로 근원 문제 학습 시보다 더 **작은 학습률(learning rate)**을 사용합니다.
GPT의 시작 (Radford, 2018)
"생성적 사전 학습(Generative Pre-Training)을 통한 언어 이해의 개선"
핵심 아이디어 2가지:
- 언어 이해 과제를 본격적으로 수행하기 전에 먼저 모형을 사전 학습 시키겠다.
- 사전 학습의 구체적인 과제로써 **생성(Generation)**과제를 수행하게 하겠다.
생성으로 사전 학습을 하는 이유: 언어 모형 자체가 문장의 다음 단어를 예측하는 구조이므로, 대량의 텍스트만 주어지면 별도의 사람이 달아주는 데이터 레이블(Data Labeling) 과정이 불필요하기 때문입니다.
GPT 미세 조정의 과제별 구성
다양한 하위 과제(Task)를 수행할 때 텍스트를 특수 토큰을 활용해 정해진 형식으로 구성하여 모형에 일렬로 배열하여 입력합니다.
- 특수 토큰:
start: 문장의 시작delim: 두 문장 이상의 입력이 필요할 경우 문장들을 구분하는 역할extract: 문장의 끝
과제별 텍스트를 이 토큰들을 조합하여 한 줄의 입력 시퀀스로 만들고, GPT는 최종적으로 일종의 점수(score)를 출력합니다.
- 분류 (Classification): 텍스트를 입력하고 최종 출력값을 이용해 분류를 수행합니다. (예: 감성 분석의 경우 긍정(1)/부정(0)으로 분류)
Radford (2018)의 과제 수행 방식의 장단점
- 장점: 언어를 스스로 생성하며 학습하는 '생성적 사전 학습' 방식이 자연어 이해 과제 전반에 걸쳐 큰 도움이 됩니다.
- 더 많은 층(Layer)을 사용할수록, 그리고 사전 학습을 더 많이 할수록 전이 학습에 긍정적인 영향을 미친다는 것이 입증되었습니다.
- 단점: 여전히 각기 다른 과제를 수행하기 위해서는 매번 해당 과제에 맞춘 미세 조정(Fine-tuning)이 반드시 필요하다는 한계가 있었습니다.