GDPval: 경제적 가치가 있는 실제 작업에서 OpenAI의 모델 및 다른 플랫폼이 얼마나 잘 작동하는지 추적하는 벤치마크

GDPval-AA Leaderboard (11 May '26)

GDPVal은 오픈AI가 2025년 9월 공개한 AI 평가를 위한 벤치마크입니다. 이는 경제적 가치가 있는 실제 작업에서 OpenAI의 모델 및 다른 플랫폼이 얼마나 잘 작동하는지 추적하는 데 도움이 되도록 설계되었습니다. 이 벤치크의 이름은 국내 총생산(GDP)에서 유래했으며, GDP에 가장 많이 기여하는 산업의 주요 직업에서 실제 작업을 가져왔습니다. 이 평가는 다양한 직업 및 분야 전반의 숙련된 전문가의 실제 지식 작업에서 직접 가져온 작업에 대한 모델 성능을 평가하여, 경제적 가치가 있는 작업을 모델이 어떻게 수행하는지 명확하게 파악할 수 있게 해줍니다. 현실적인 직업상 작업에 대해 모델을 평가하면 연구실에서 모델이 작업을 수행하는 방식뿐 아니라 일상 업무에서 사람들을 지원할 수 있는 방식을 이해하는 데 도움이 됩니다.

GDPval이 측정하는 것

GDPval은 미국에 기여하는 5% 이상 기여하는 상위 9개 산업에서 업무의 대부분 지식 작업을 진행하는 44개 직업을 대상으로 합니다. 여기에는 소프트웨어 개발자, 변호사부터 간호사, 기계 엔지니어 등이 포함됩니다. GDPval의 전체 세트는 1,320개의 전문적인 작업을 포함하고 있으며, 각 작업은 해당 분야에서 평균 14년 넘게 경력을 쌓은 숙련된 전문가가 세심하게 제작되고 점검했습니다. 모든 작업은 법률 문서, 엔지니어링 청사진, 고객 지원 대화, 간호 계획 등과 같이 현실에서 이루어지는 업무를 기반으로 합니다.

GDPval은 현실성과 평가되는 작업의 다양성에 그 특징이 있습니다. 다른 벤치마크는 특정 분야에만 국한되어 있거나, 시험의 형식으로 되어 있는 경우가 많이 있습니다. GDPval은 다양한 직업의 실제 업무를 기반으로 하는 작업에 중점을 둡니다. GDPval의 작업들은 여러 참조 파일 및 콘텍스트를 포함하며, 예상되는 결과물은 문서, 슬라이드, 다이어그램, 스프레드시트, 멀티미디어 등으로 다양합니다. 이러한 현실성은 GPDval이 전문가를 지원하는 모델에 대한 더 현실적인 테스트를 가능하게 합니다. 다만 일회성 평가로 제한되어 있어 모델이 컨텍스트를 구축해야 하거나 다양한 초안을 통해 개선되어야 하는 사례를 포착하지는 못합니다.

모델 성능을 채점하는 방법

GDPval 작업에서 모델 성능을 평가하기 위해 데이터세트에서 나타난 동일한 직업의 숙련된 전문가 그룹인 전문가 “채점자”를 이용했습니다. 이 채점자들은 모델이 생성한 결과물을 작업 작성자가 생성한 것과 비교하고(어느 결과물을 AI가 작성하고 인간이 작성했는지 모르는 블라인드 형식으로 진행) 비평과 등급을 제공합니다. 이어서 채점자들은 인간과 AI의 결과물의 등급을 나누고, 각 AI 결과물을 비교하여 “우수”, “보통”, “나쁨”으로 분류합니다.

작업 작성자는 자기 직업에 대한 상세한 점수 기준을 만들어 채점 과정에 일관성과 투명성을 더했습니다. 또한 인간 전문가가 주어진 결과물을 어떻게 평가하는지 추측하도록 훈련된 AI 시스템인 “자동화 채점기”를 구축하였습니다. 매번 전체적인 전문가 검토를 거치는 대신, 자동 채점기가 사람들이 더 선호할 만한 결과물을 빠르게 예측하는 것입니다.