[생성형 AI] 규모의 법칙 :: 마인드스케일

아래 그래프는 Training Compute-Optimal Large Language Models에서 인용한 것으로, 모델의 크기(Model Size, 가로축)와 모델을 훈련시킨 계산량(Train. FLOP, 점선)에 따라서 손실(Loss, 세로축)이 어떻게 변하는지 보여줍니다. 계산량을 표현하는 FLOP은 "부동소수점 연산(FLoating-point OPerations)"의 약자입니다. 제목에서 IsoFLOP은 Iso-(같음)과 FLOP을 합친 말로, 계산량이 같은 경우를 의미합니다.

isoflop

손실은 낮을 수록 좋습니다. 그래프를 보면 계산량이 증가할수록(옅은 점선 → 짙은 점선) 손실이 낮아지는 것을 볼 수 있습니다. 또한, 모델의 크기가 커지면(왼쪽 → 오른쪽) 역시 손실이 낮아집니다. 같은 계산량에서 최적의 모델 크기는 계산량이 증가할수록 커지고 있습니다. 이 그래프에서 손실의 추세는 계산량과 모델 크기에 따라 정확히 변하는 모습을 보여줍니다. 따라서 우리가 모델의 크기와 계산량을 증가시키면 손실을 줄일 수 있다는 것을 알 수 있습니다.