대규모 언어 모델(LLM)

LLM이란 무엇인가?

LLM(Large Language Model)은 대규모 언어 모델을 의미합니다. 인간의 언어를 이해하고 생성할 수 있도록 설계된 인공지능 모델이며, 방대한 양의 텍스트 데이터를 학습하여 문장의 패턴과 의미를 익힙니다. 최근의 생성형 AI 서비스 대부분은 이러한 LLM 기술을 기반으로 작동합니다.

LLM은 단순히 문장을 저장해 두었다가 꺼내는 시스템이 아닙니다. 문맥을 바탕으로 다음에 올 단어나 표현을 확률적으로 예측하면서 새로운 문장을 생성합니다. 따라서 질문에 답하거나 글을 요약하고, 번역하거나 코드를 작성하는 등 매우 다양한 작업을 수행할 수 있습니다.

대표적인 예로는 OpenAI의 GPT 계열 모델, Google의 Gemini, Anthropic의 Claude 등이 있습니다.

LLM의 작동 방식

LLM의 핵심 원리는 “다음 토큰(next token)을 예측하는 것”입니다. 사용자가 문장을 입력하면 모델은 지금까지의 문맥을 바탕으로 다음에 등장할 가능성이 가장 높은 단어나 기호를 계산합니다. 그리고 그 결과를 하나씩 이어 붙이며 문장을 생성합니다.

예를 들어 “대한민국의 수도는”이라는 문장이 입력되면, 모델은 다음에 “서울입니다”가 올 가능성이 매우 높다고 판단합니다. 이후에도 계속해서 다음 토큰을 예측하면서 답변을 완성합니다.

이 과정은 인간의 사고와 완전히 동일하지는 않습니다. 모델은 실제 의미를 “이해”한다기보다는, 방대한 데이터 속에서 나타난 언어 패턴을 통계적으로 학습한 결과를 활용하는 것입니다. 그러나 데이터 규모와 모델 크기가 매우 커지면서 인간과 유사한 수준의 언어 능력을 보이는 경우가 많아졌습니다.

용어: 토큰과 컨텍스트 윈도우

LLM을 이해하려면 몇 가지 핵심 용어를 알아둘 필요가 있습니다.

토큰(Token)은 LLM이 문장을 처리하는 기본 단위입니다. 토큰은 단어 하나일 수도 있고, 단어의 일부 조각일 수도 있으며, 문장부호 하나가 하나의 토큰이 되기도 합니다. 예를 들어 영어에서는 “unbelievable”이 여러 개의 토큰으로 나뉠 수 있습니다.

LLM은 입력된 문장을 토큰 단위로 변환한 뒤 계산을 수행합니다. 따라서 모델 성능이나 비용을 이야기할 때 “몇 토큰을 사용했는가”가 중요한 기준이 됩니다.

컨텍스트 윈도우(Context Window)는 모델이 한 번에 기억하고 참고할 수 있는 최대 입력 범위를 의미합니다. 쉽게 말해 모델의 “작업 기억 공간”이라고 볼 수 있습니다. 컨텍스트 윈도우가 크면 긴 문서나 긴 대화를 더 잘 처리할 수 있습니다.

예를 들어 컨텍스트 윈도우가 작은 모델은 긴 대화 초반 내용을 잊어버릴 수 있지만, 큰 모델은 이전 내용을 오래 유지하면서 일관된 답변을 생성할 수 있습니다.

LLM이 학습하는 방법: 세 단계

LLM은 일반적으로 세 단계에 걸쳐 학습됩니다.

첫 번째 단계는 사전학습(Pretraining)입니다. 이 단계에서는 인터넷 문서, 책, 논문, 코드 등 방대한 데이터를 활용하여 다음 토큰을 예측하는 훈련을 반복합니다. 이 과정을 통해 모델은 문법, 상식, 언어 패턴 등을 폭넓게 익히게 됩니다.

두 번째 단계는 지도 미세조정(Supervised Fine-Tuning)입니다. 여기서는 사람이 작성한 질문과 모범 답변 데이터를 활용하여, 모델이 더 자연스럽고 유용한 답변을 하도록 조정합니다. 예를 들어 “이메일을 정중하게 작성해 달라”는 요청에 적절한 형식으로 응답하도록 학습하는 과정입니다.

세 번째 단계는 인간 피드백 기반 강화학습(RLHF: Reinforcement Learning from Human Feedback)입니다. 여러 답변 후보 중 인간 평가자가 더 선호하는 답변을 선택하면, 모델은 이러한 선호를 반영하도록 추가 학습을 수행합니다. 이를 통해 단순히 “그럴듯한 문장”이 아니라 “사람이 선호하는 답변”을 생성하도록 조정됩니다.

LLM의 학습 방식이 미치는 영향

LLM의 학습 방식은 모델의 장점뿐 아니라 한계에도 큰 영향을 미칩니다.

대표적인 현상 중 하나는 환각(Hallucination)입니다. 모델은 항상 “정답”을 말하는 것이 아니라, 가장 그럴듯한 다음 토큰을 생성합니다. 따라서 실제로 존재하지 않는 논문이나 통계를 마치 사실처럼 말할 수 있습니다. 이는 모델이 사실 검증 시스템이라기보다 언어 생성 시스템이라는 점에서 비롯됩니다.

또 다른 특징은 아첨(Sycophancy)입니다. RLHF 과정에서 인간이 선호하는 답변을 학습하다 보니, 사용자의 의견에 지나치게 동조하는 경향이 나타날 수 있습니다. 사용자가 틀린 정보를 말하더라도 이를 직접 반박하기보다 맞장구를 치는 현상이 발생하기도 합니다.

또한 모델은 학습 데이터의 편향을 그대로 반영할 수 있습니다. 인터넷 데이터에는 문화적 편견, 정치적 편향, 잘못된 정보가 포함되어 있기 때문에, 이러한 특성이 모델 출력에 영향을 줄 가능성이 있습니다.