고블린 표현 증가 현상의 배경

OpenAI는 GPT 계열 모델에서 특정 표현이 증가하는 현상을 분석한 결과를 공개했습니다. GPT-5.1부터 모델 응답에서 “고블린”이나 “그렘린”과 같은 생물 비유가 점점 자주 등장하기 시작했습니다. 이러한 현상은 일반적인 모델 오류처럼 평가 점수 급락이나 학습 지표 급등으로 드러나지 않았기 때문에 초기에는 명확히 인지되기 어려웠습니다.

특히 “작은 고블린”과 같은 표현은 단독으로 보면 해롭지 않거나 오히려 친근하게 느껴질 수 있어 문제로 인식되기 어려웠습니다. 그러나 모델의 언어 행동은 여러 작은 보상 요소가 누적되며 형성되는데, 이번 현상 역시 그러한 누적 효과의 결과로 나타난 것입니다.

Nerdy 성격 설정과 언어 습관 형성

이번 현상은 ChatGPT의 성격 설정 기능 중 하나인 너드 성격(Nerdy personality) 학습 과정에서 시작된 것으로 분석됐습니다. 이 성격은 “지식에 열정적이고 장난기 있으면서도 통찰력 있는 인공지능 멘토”처럼 행동하도록 설계된 설정입니다. 또한 진실, 지식, 철학, 과학적 방법, 비판적 사고를 적극적으로 장려하면서, 어려운 표현을 장난스럽게 풀어내도록 요구합니다.

이 과정에서 생물 비유 표현이 높은 보상을 받았고, 그 결과 해당 표현이 점점 강화됐습니다. 2025년 11월 GPT-5.1 출시 이후 이러한 패턴이 뚜렷해졌으며, 실제로는 더 이전부터 시작됐을 가능성도 있습니다.

사용자들은 모델이 지나치게 친근하거나 특정 말버릇을 반복한다고 느끼기 시작했고, 안전 연구자들 역시 “고블린”과 “그렘린” 같은 표현을 주요 점검 대상으로 삼았습니다. 실제로 GPT-5.1 이후 ChatGPT에서 “고블린” 사용은 175%, “그렘린” 사용은 52% 증가한 것으로 나타났습니다.

특정 사용자군에서의 집중적 발생

GPT-5.4 단계에서는 이러한 생물 비유 증가 현상이 더욱 뚜렷하게 확인됐습니다. 내부 분석 결과, 너드 성격을 사용하는 사용자 집단이 핵심 원인으로 나타났습니다.

이 성격 설정은 전체 ChatGPT 응답의 약 2.5%에 불과했지만, “고블린” 표현의 전체 사용 중 66.7%를 차지하는 것으로 분석됐습니다. 이는 특정 언어 스타일이 전체 시스템에 강한 영향을 미칠 수 있음을 보여줍니다.

만약 이 현상이 인터넷 전반의 유행 때문이었다면 다양한 사용자군에서 고르게 나타났어야 하지만, 실제로는 장난스럽고 학구적인 스타일에 최적화된 환경에서 집중적으로 발생했습니다. 이는 모델이 특정 보상 조건에 맞춰 언어 습관을 학습했음을 의미합니다.

보상 신호와 행동 전이 메커니즘

GPT의 학습에는 인공지능이 스스로 여러 답변을 생성해 보고, 그중 더 바람직한 결과에 높은 점수를 주는 방식으로 학습하는 강화학습이 사용됩니니다. 여기서 점수는 보상 신호라고 불리며, 모델은 이 보상을 최대화하는 방향으로 점차 행동을 조정합니다. 예를 들어 특정 표현이 포함된 답변이 더 높은 평가를 받으면, 모델은 그 표현을 더 자주 사용하도록 내부 확률 구조를 바꾸게 됩니다. 중요한 점은 이러한 학습이 특정 조건에만 국한되지 않고, 유사한 상황 전반으로 일반화될 수 있다는 것입니다. 따라서 한 환경에서 보상받은 언어 습관이 다른 맥락에서도 반복되는 현상이 나타날 수 있습니다.

분석 결과, 너드 성격의 보상 체계는 “고블린”이나 “그렘린”이 포함된 문장을 일관되게 더 높은 점수로 평가하는 경향을 보였습니다. 전체 감사 데이터의 76.2%에서 이러한 긍정적 점수 상승이 확인됐습니다.

이 결과는 해당 표현이 너드 성격 설정에서 강화된 이유를 설명해주지만, 문제는 이 행동이 해당 설정 없이도 나타났다는 점입니다. 이를 확인하기 위해 학습 데이터를 추적한 결과, 너드 성격 설정에서 증가한 표현이 다른 조건에서도 거의 동일한 비율로 확산된 것이 확인됐습니다.

이는 강화학습의 특성 때문입니다. 강화학습은 특정 조건에서 보상받은 행동이 그 조건 안에만 머물도록 보장하지 않습니다. 한 번 보상받은 표현이나 말버릇은 이후 학습 과정에서 다른 상황으로 퍼질 수 있습니다

피드백 루프와 언어 습관 확산

이 현상은 다음과 같은 피드백 순환 구조를 통해 강화된 것으로 분석됩니다.

먼저 장난스럽고 유머러스한 스타일이 보상을 받습니다. 이후 그 스타일 안에 특정 단어 습관이 포함됩니다. 여기서 단어 습관이란 특정 단어나 표현을 반복적으로 사용하는 언어 패턴을 의미합니다.

이러한 표현은 모델이 다양한 답변을 생성해보는 과정, 즉 생성 시뮬레이션 과정에서 더 자주 등장하게 됩니다. 이후 이 결과가 다시 지도학습 데이터로 활용되면서, 모델은 해당 표현을 더 쉽게 생성하도록 학습됩니다.

지도학습은 사람이 작성한 정답 예시를 기반으로 모델이 올바른 출력을 모방하도록 학습하는 방식입니다. 이 과정에서는 입력과 그에 대응하는 이상적인 출력이 쌍으로 제공되며, 모델은 이를 반복적으로 학습하면서 점점 더 자연스럽고 일관된 답변을 생성하게 됩니다. 특히 최근에는 모델이 스스로 생성한 결과도 다시 학습 데이터로 활용되는 경우가 많아, 특정 표현이나 말버릇이 포함된 출력이 반복적으로 사용되면 그 패턴이 더욱 강화될 수 있습니다. 이처럼 생성 결과가 다시 학습에 반영되는 구조는 특정 언어 습관이 빠르게 확산되는 원인으로 작용할 수 있습니다.

실제로 GPT-5.5 학습 데이터에서는 “고블린”과 “그렘린”이 포함된 데이터가 다수 발견됐습니다. 추가 조사에서는 너구리, 트롤, 오우거, 비둘기와 같은 다른 생물 단어들도 유사한 언어 습관으로 확인됐습니다. 다만 개구리의 경우는 대부분 정상적인 맥락에서 사용된 것으로 분류됐습니다.

대응 조치와 시사점

OpenAI는 GPT-5.4 출시 이후 3월에 너드 성격을 제거했습니다. 또한 학습 과정에서 고블린 관련 보상 신호를 제거하고, 생물 단어가 포함된 학습 데이터를 걸러내어 과도한 사용을 줄였습니다.

그러나 GPT-5.5는 이러한 원인을 완전히 파악하기 전에 학습이 시작됐기 때문에, 내부 테스트 과정에서 이미 해당 표현 선호가 확인됐습니다. 이에 따라 시스템 프롬프트가 추가되어, 관련 표현을 필요할 때만 사용하도록 제한했습니다

이번 사례는 단순한 말버릇 문제가 아니라, 보상 신호가 모델 행동을 어떻게 형성하는지를 보여주는 중요한 사례입니다. 특정 상황에서의 보상이 전혀 다른 상황으로 확산될 수 있으며, 이는 인공지능 정렬 문제에서 중요한 고려 요소로 작용합니다.

결론적으로 OpenAI는 모델의 이상 행동을 빠르게 탐지하고 원인을 분석하는 능력의 중요성을 강조했습니다. 이번 분석은 모델 행동을 체계적으로 점검하고 문제를 근본 원인에서 해결하기 위한 새로운 도구 개발로 이어졌습니다.