앤스로픽, 차세대 AI ‘Claude Opus 4.7’ 공개…코딩·멀티모달 성능 대폭 향상

앤스로픽은 4월 16일 차세대 인공지능 모델 ‘Claude Opus 4.7’을 공개하고, 소프트웨어 엔지니어링과 멀티모달 처리 능력을 대폭 개선했다고 밝혔습니다. 이번 모델은 전작인 Claude Opus 4.6 대비 복잡하고 장시간 실행되는 작업에서 일관성과 정확도를 크게 향상시킨 것이 특징입니다.

고급 엔지니어링 성능과 자율성 강화

Claude Opus 4.7은 난이도 높은 코딩 작업을 사용자가 신뢰하고 위임할 수 있도록 설계된 모델입니다. 모델은 작업 수행 후 자체 검증 과정을 거쳐 결과를 보고하는 구조를 갖추고 있으며, 이는 기존 모델 대비 신뢰도를 높이는 핵심 요소로 평가됩니다.

특히 고해상도 이미지와 사용자 인터페이스, 슬라이드, 문서 등 다양한 시각 정보를 정밀하게 분석하는 능력이 강화되어, 창의적 작업과 기술적 해석 모두에서 개선된 성능을 보입니다. 다만 Claude Mythos Preview 대비 범용 능력은 일부 제한적이지만, 다양한 벤치마크에서 Opus 4.6보다 우수한 결과를 기록했습니다.

해당 모델은 Amazon의 Bedrock, Google Cloud Vertex AI, Microsoft Foundry 등 주요 플랫폼에서 동일한 가격 정책으로 제공됩니다.

사이버 보안 대응 체계 구축

앤스로픽은 ‘Project Glasswing’을 통해 AI의 사이버 보안 리스크와 활용 가능성을 동시에 공개하고 있습니다. 이에 따라 Mythos Preview 모델의 공개는 제한적으로 유지하며, 보안 실험은 상대적으로 덜 강력한 모델에서 우선 진행하는 전략을 채택했습니다.

Opus 4.7은 이러한 정책이 적용된 첫 번째 모델로, 고위험 사이버 보안 요청을 자동으로 탐지하고 차단하는 보호 장치를 내장하고 있습니다. 또한 실제 배포 데이터를 기반으로 향후 Mythos급 모델의 확장 공개를 준비 중입니다.

합법적인 보안 연구자들은 ‘Cyber Verification Program’을 통해 취약점 분석, 침투 테스트, 레드팀 활동에 참여할 수 있습니다.

성능 개선과 기업 활용 사례 확대

초기 테스트 결과, Opus 4.7은 논리 오류를 스스로 감지하고 실행 속도를 개선하는 능력을 갖춘 것으로 확인되었습니다. 비동기 워크플로우, CI/CD 환경, 장시간 자동화 작업에서 높은 성능을 보이며 단순 응답이 아닌 심층적인 문제 분석과 의견 제시가 가능하다는 평가입니다.

특히 데이터 결손 상황에서도 잘못된 추론을 회피하는 안정성을 보였으며, 93개 코딩 벤치마크에서 Opus 4.6 대비 13% 성능 향상을 기록했습니다. 기존에 해결하지 못했던 4개 과제도 추가로 해결한 것으로 나타났습니다.

멀티스텝 작업에서는 높은 일관성을 유지했으며, 금융 모듈 평가에서 0.813점을 기록해 전작(0.767점)을 상회했습니다. 멀티모달 이해 능력 또한 개선되어 화학 구조나 복잡한 기술 다이어그램 해석에서도 성능 향상이 확인되었습니다.

Replit, Harvey, Notion, Databricks, Vercel 등 다수 기업은 코드 품질과 도구 호출 정확도, 장기 워크플로우 신뢰성이 개선되었다고 밝혔습니다. 실제 사례로는 Rust 기반 음성 합성 엔진을 자율적으로 개발하고 Python 참조 모델과의 일치 여부를 자체 검증한 사례가 보고되었습니다.

■ 멀티모달·실무 성능 전반 향상

Opus 4.7은 명령어 해석 정확도가 크게 개선되어 지시문을 보다 엄격하게 따르는 특징을 보입니다. 이로 인해 기존 프롬프트는 예상과 다른 결과를 낼 수 있어 재조정이 필요하다는 분석입니다.

또한 최대 2,576픽셀 수준의 이미지 처리 능력을 지원하며, 복잡한 다이어그램 분석이나 스크린샷 기반 데이터 추출 등 정밀 작업에 적합합니다.

금융 분석, 프레젠테이션, 모델링 등 실제 업무 환경에서도 전작 대비 높은 전문성과 일관성을 확보했으며, 외부 평가인 GDPval-AA에서도 금융 및 법률 분야에서 최고 수준의 성과를 기록했습니다.

파일 시스템 기반 메모리 활용 기능을 통해 여러 세션에 걸친 작업 맥락을 유지하고 재활용할 수 있는 점도 특징입니다.

안전성 및 정렬 평가

안전성 측면에서 Opus 4.7은 전반적으로 Opus 4.6과 유사한 수준을 유지하며, 기만적 응답이나 오용 협력 가능성은 낮은 것으로 평가되었습니다.

정직성과 악성 프롬프트 주입에 대한 저항성은 개선된 반면, 일부 영역에서는 제한적으로 약화된 측면도 확인되었습니다. 전반적인 평가 결과는 “대체로 잘 정렬되고 신뢰할 수 있으나 완전한 이상적 상태는 아님”으로 요약됩니다.

한편 Mythos Preview 모델은 여전히 가장 높은 정렬 수준을 유지하는 것으로 평가됩니다.

플랫폼 기능 및 마이그레이션 전략

이번 업데이트에서는 추론 강도를 조절하는 Effort 옵션에 ‘xhigh’ 단계가 추가되어 성능과 지연 시간 간의 정밀한 조정이 가능해졌습니다.

API 플랫폼에서는 고해상도 이미지 지원과 함께 장기 작업 시 토큰 사용을 관리할 수 있는 Task Budget 기능이 공개 베타 형태로 제공됩니다.

또한 Claude Code에는 코드 변경 검토와 버그 탐지를 수행하는 ‘/ultrareview’ 기능이 도입되었으며, 일부 사용자에게 무료 이용 기회가 제공됩니다.

Opus 4.7은 기존 모델에서 직접 업그레이드가 가능하지만, 새로운 토크나이저 적용으로 입력 대비 토큰 사용량이 최대 1.35배까지 증가할 수 있어 주의가 필요합니다. 높은 Effort 설정에서는 출력 토큰 역시 증가할 수 있습니다.

앤스로픽은 Effort 파라미터와 Task Budget, 간결한 프롬프트 설계를 통해 효율적인 자원 관리가 가능하다고 설명했으며, 구체적인 전환 방법은 별도의 마이그레이션 가이드를 통해 제공할 예정입니다.