METR란 무엇인가
METR는 “Model Evaluation & Threat Research”의 약자로, 프론티어 AI 모델의 능력과 위험성을 평가하는 비영리 연구기관입니다. 2022년 OpenAI 출신 alignment 연구자였던 Beth Barnes를 중심으로 시작되었으며, 현재는 OpenAI와 Anthropic 같은 주요 AI 기업들과 협력하여 최신 모델의 성능과 안전성을 평가하고 있습니다.
METR가 특히 주목받는 이유는 기존 AI 벤치마크의 한계를 정면으로 문제 삼았기 때문입니다. 기존 벤치마크들은 대체로 짧고 명확한 문제를 얼마나 정확하게 푸는지를 측정했습니다. 대표적으로 MMLU, GSM8K, HumanEval 같은 평가가 이에 해당합니다. 그러나 METR은 실제 인간 업무가 그런 식으로 이루어지지 않는다고 봅니다. 현실의 지식 노동은 장시간의 계획 수립, 오류 수정, 도구 사용, 반복적 시행착오, 목표 유지 같은 요소를 포함하기 때문입니다.
즉, METR은 “AI가 시험 문제를 얼마나 잘 푸는가”보다 “AI가 실제 업무를 얼마나 오래 자율적으로 수행할 수 있는가”를 측정하려는 기관이라고 볼 수 있습니다.
Time Horizon이라는 핵심 개념
METR의 가장 유명한 개념은 “Task-Completion Time Horizon”입니다. 이는 인간 전문가가 수행했을 때 특정 시간이 걸리는 작업을 AI가 어느 정도 신뢰도로 성공할 수 있는지를 측정하는 방식입니다.
예를 들어 인간 전문가가 10분 걸리는 작업, 1시간 걸리는 작업, 5시간 걸리는 작업을 준비한 뒤, AI agent가 이를 얼마나 성공적으로 수행하는지를 측정합니다. 그리고 특정 성공률에서 AI가 처리 가능한 작업 길이를 “시간” 단위로 표현합니다.
METR은 특히 “50%-time horizon”을 자주 사용합니다. 이는 인간이 특정 시간 동안 수행하는 작업을 AI가 절반의 확률로 성공할 수 있는 지점을 의미합니다.
이 접근은 기존 벤치마크 점수보다 훨씬 직관적입니다. 예를 들어 “MMLU 88점”보다 “인간 기준 1시간짜리 작업 수행 가능”이라는 표현이 실제 자동화 가능성을 훨씬 잘 전달하기 때문입니다.
왜 METR 방식이 중요한가
AI 평가의 흐름은 크게 세 단계로 변화해 왔다고 볼 수 있습니다. 초기의 벤치마크는 ImageNet이나 GLUE처럼 정답 정확도를 측정하는 방식이 중심이었습니다. 이후에는 MMLU, GSM8K, GPQA처럼 추리와 지식을 측정하는 벤치마크가 중요해졌습니다. 기존 벤치마크는 대체로 단기 추론이나 정답 맞히기에 최적화되어 있었습니다.
하지만 최근 AI 산업의 핵심 방향은 agentic AI입니다. 즉, 단순히 질문에 답하는 모델이 아니라 스스로 계획하고, 툴을 사용하고, 여러 단계를 거쳐 목표를 달성하는 시스템이 중요해지고 있습니다. 최근에는 SWE-bench, RE-Bench, METR Time Horizon처럼 “실제 장기 작업 수행 능력”을 측정하는 방향으로 이동하고 있습니다. METR은 바로 이 “장기 자율 작업(long-horizon autonomous work)”을 측정하려고 합니다. 즉 METR은 단순 LLM이 아니라 “AI agent 전체 시스템”을 평가합니다. 여기에는 모델 자체뿐 아니라 prompting, tool use, scaffold까지 포함됩니다. 이 때문에 METR 평가는 오늘날 AI 산업 흐름과 매우 잘 맞아떨어집니다.
7개월마다 두 배씩 증가
METR이 크게 화제가 된 이유 중 하나는 AI 모델 성능 향상을 “time horizon” 관점에서 분석한 결과입니다. 2025년 발표된 연구에서 METR은 frontier AI 모델의 50%-task-completion time horizon이 2019년 이후 약 7개월마다 두 배씩 증가해 왔다고 주장했습니다. 즉, 초기 모델은 몇 초몇 분짜리 작업만 가능했지만, 최신 모델은 수십 분수시간짜리 작업을 자율적으로 수행 가능하다는 것입니다. 최근 업데이트된 Time Horizon 1.1에서는 일부 모델이 수 시간 이상의 작업도 수행 가능하다는 결과가 발표되었습니다. 이 그래프는 AI safety와 AGI 논의에서 매우 자주 인용됩니다. 왜냐하면 단순 벤치마크 향상이 아니라 “경제적으로 유의미한 인간 노동 자동화”와 직접 연결되기 때문입니다.
METR 평가 방식의 특징
METR의 중요한 특징은 벤치마크 포화 문제를 강하게 의식한다는 점입니다. MMLU나 HumanEval 같은 벤치마크는 이미 상위 모델들이 비슷한 점수대에 몰려 있습니다. 따라서 벤치마크 점수 상승이 실제 능력 향상을 의미하는지 해석하기 어려워졌습니다. 반면 METR은 “AI가 더 긴 작업을 수행할 수 있는가”라는 새로운 축을 제시합니다. 이는 단순 정확도보다 실제 업무 생산성과 더 밀접하게 연결됩니다. 또한 METR은 실제 작업 환경을 최대한 반영하려고 합니다.
물론 METR에도 여러 비판이 존재합니다. 가장 큰 비판은 task selection bias입니다. 어떤 작업을 벤치마크에 포함하느냐에 따라 결과가 크게 달라질 수 있다는 것입니다. 또한 실제 인간 업무는 매우 messy합니다. 현실의 회사 업무는 불명확한 요구사항, 인간 간 협업, 정치적 맥락, 문서 품질 문제 같은 요소가 포함됩니다. 하지만 METR task는 상대적으로 구조화되어 있다는 지적이 있습니다.
또 다른 비판은 “모델 능력”과 “agent engineering”을 분리하기 어렵다는 점입니다. prompting, scaffold, tool orchestration이 성능에 큰 영향을 주기 때문입니다. METR도 이런 문제를 인정하며 지속적으로 evaluation infrastructure를 개선하고 있습니다.
최근에는 METR의 지수적 성장 해석 자체에 대한 반론도 등장했습니다. 일부 연구자들은 capability growth가 결국 점차 둔화될 가능성이 높다고 주장합니다.