AI 안전성 평가 기관 METR(Model Evaluation & Threat Research)가 앤스로픽의 차세대 모델인 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’에 대한 초기 평가 결과를 공개했다. METR은 지난 3월 제한된 기간 동안 미토스 프리뷰를 위험성 평가 목적으로 테스트했으며, 해당 모델의 “50%-time-horizon”이 최소 16시간에 달한다고 밝혔다. 이는 현재 METR의 평가 체계로 측정 가능한 상한선에 근접한 수치로, 연구진은 “기존 벤치마크가 더 이상 충분하지 않을 수 있다”고 경고했다.

METR은 최근 AI 평가 분야에서 가장 주목받는 비영리 연구기관 중 하나다. 이 기관은 단순한 벤치마크 점수 대신 “AI가 인간 기준 얼마나 긴 실제 업무를 자율적으로 수행할 수 있는가”를 측정하는 ‘Task-Completion Time Horizon’ 개념을 제시해 주목받았다. METR의 평가 방식은 코딩, 디버깅, 연구 엔지니어링 같은 장기적 에이전트 작업을 중심으로 구성되며, OpenAI와 앤스로픽 같은 프론티어 AI 기업들이 안전성 검증 과정에서 참고하는 지표로 활용되고 있다.

이번 평가 대상이 된 클로드 미토스 프리뷰는 앤스로픽이 제한적으로 공개한 차세대 AI 모델이다. 앤스로픽은 미토스를 일반 사용자에게 공개하지 않고 일부 기관과 기업에만 제공하고 있으며, 특히 사이버 보안과 취약점 탐지 능력에서 기존 모델보다 훨씬 높은 성능을 보인다고 설명하고 있다. 영국 AI Security Institute는 미토스가 복잡한 다단계 사이버 공격 시나리오를 최초로 end-to-end 수준에서 해결한 모델이라고 평가했으며, Mozilla는 미토스를 활용해 Firefox에서 271개의 보안 취약점을 발견·수정했다고 밝힌 바 있다.

METR가 5월 9일 공개한 내용에 따르면, 연구진은 2026년 3월 제한된 기간 동안 클로드 미토스 프리뷰 초기 버전을 위험성 평가 용도로 테스트했다. 그 결과 METR의 task suite 기준으로 “50%-time-horizon”이 최소 16시간에 달하는 것으로 추정됐다. 이는 인간 전문가가 약 16시간 걸리는 작업을 AI가 절반의 확률로 성공적으로 수행할 수 있다는 의미다. 다만 연구진은 정확한 수치 자체보다 “현재 벤치마크의 측정 한계에 도달했다”는 점이 더 중요하다고 강조했다.

METR은 현재 전체 228개의 task를 보유하고 있지만, 이 가운데 인간 기준 16시간 이상 걸리는 작업은 단 5개뿐이라고 설명했다. 따라서 이 구간에서는 통계적 안정성이 크게 떨어지며, 정확한 성능 비교나 미래 성능 외삽에 활용하기 어렵다고 밝혔다. 연구진은 “16시간 이상의 측정값은 현재 task suite로는 견고하지 않다”고 명시하면서, 향후 더 긴 작업을 포함한 새로운 벤치마크 체계를 개발 중이라고 덧붙였다.

그럼에도 불구하고 업계에서는 이번 결과를 중요한 신호로 받아들이고 있다. 기존 METR 데이터에 따르면 GPT-4o 수준 모델의 time horizon은 수분 단위였고, Claude Opus 4.6이나 GPT-5 계열 모델이 수시간 수준까지 올라온 상태였다. 그러나 미토스 프리뷰는 현행 벤치마크의 측정 범위를 넘어서는 최초의 모델 중 하나로 평가된다. 일부 연구자들은 이를 두고 “프론티어 AI 모델이 기존 평가 인프라보다 더 빠르게 발전하고 있다”는 사례라고 분석하고 있다.

METR “클로드 미토스, 인간 기준 16시간짜리 업무 수행 가능”…기존 AI 평가 체계 한계 도달

Key points

관련 위키