
METR “클로드 미토스, 인간 기준 16시간짜리 업무 수행 가능”…기존 AI 평가 체계 한계 도달
Anthropic의 차세대 모델 ‘Claude Mythos Preview’가 현행 benchmark로 측정 가능한 상한선에 근접

METR “클로드 미토스, 인간 기준 16시간짜리 업무 수행 가능”…기존 AI 평가 체계 한계 도달
Anthropic의 차세대 모델 ‘Claude Mythos Preview’가 현행 benchmark로 측정 가능한 상한선에 근접

“실행 파일만 보고 프로그램 복원하라”… 메타가 공개한 AI 코딩 벤치마크 ‘ProgramBench’
메타는 AI가 단순 코드 생성 수준을 넘어 실제 소프트웨어를 얼마나 이해하고 재구성할 수 있는지를 평가하는 새로운 벤치마크 ProgramBench를 공개했다.

이제 AI가 스스로 목표를 끝까지 수행한다
Codex에 ‘/goal’ 기능 추가… 자동 반복 실행 시대 열려
GPT에서 고블린이 왜 나와?
강화학습 보상이 특정 단어 사용을 유도하고, 그 결과가 전체 GPT 언어 행동으로 퍼진 사례
GPT-5.5 공개…오픈AI, ‘에이전트형 AI’로 복잡 업무 자동화 가속
오픈AI가 스스로 계획·실행·검증까지 수행하는 GPT-5.5를 공개하며, 소프트웨어 개발부터 연구까지 전반적인 지식 노동 자동화를 한 단계 끌어올렸습니다.
앤스로픽, 차세대 AI ‘Claude Opus 4.7’ 공개…코딩·멀티모달 성능 대폭 향상
고난도 소프트웨어 작업을 자율적으로 수행하고 결과를 자체 검증하는 기능이 추가되며 실무 신뢰성이 강화됨