
METR “클로드 미토스, 인간 기준 16시간짜리 업무 수행 가능”…기존 AI 평가 체계 한계 도달
Anthropic의 차세대 모델 ‘Claude Mythos Preview’가 현행 benchmark로 측정 가능한 상한선에 근접
최신 뉴스, 핵심 개념 위키, 바로 쓰는 프롬프트, 학습 강좌를 한곳에서 살펴보세요.
데이터와 인공지능 분야의 최근 소식을 모았습니다.

Anthropic의 차세대 모델 ‘Claude Mythos Preview’가 현행 benchmark로 측정 가능한 상한선에 근접

“실행 파일만 보고 프로그램 복원하라”… 메타가 공개한 AI 코딩 벤치마크 ‘ProgramBench’
메타는 AI가 단순 코드 생성 수준을 넘어 실제 소프트웨어를 얼마나 이해하고 재구성할 수 있는지를 평가하는 새로운 벤치마크 ProgramBench를 공개했다.

이제 AI가 스스로 목표를 끝까지 수행한다
Codex에 ‘/goal’ 기능 추가… 자동 반복 실행 시대 열려
GPT에서 고블린이 왜 나와?
강화학습 보상이 특정 단어 사용을 유도하고, 그 결과가 전체 GPT 언어 행동으로 퍼진 사례
GPT-5.5 공개…오픈AI, ‘에이전트형 AI’로 복잡 업무 자동화 가속
오픈AI가 스스로 계획·실행·검증까지 수행하는 GPT-5.5를 공개하며, 소프트웨어 개발부터 연구까지 전반적인 지식 노동 자동화를 한 단계 끌어올렸습니다.
앤스로픽, 차세대 AI ‘Claude Opus 4.7’ 공개…코딩·멀티모달 성능 대폭 향상
고난도 소프트웨어 작업을 자율적으로 수행하고 결과를 자체 검증하는 기능이 추가되며 실무 신뢰성이 강화됨
바로 활용할 수 있는 프롬프트 템플릿입니다.
데이터 분석, 인공지능, 프로그래밍을 주제별로 학습하세요.