앤트로픽, Claude Opus 4.8 공개… AI의 성능 경쟁에서 ‘업무 수행’ 경쟁으로

인공지능 기업 앤트로픽(Anthropic)이 새로운 플래그십 모델인 Claude Opus 4.8을 공개했습니다. 함께 발표된 동적 워크플로우(Dynamic Workflows) 기능은 AI가 단순히 질문에 답하거나 코드를 생성하는 수준을 넘어, 복잡한 프로젝트를 여러 작업 단위로 나누고 병렬적으로 처리하는 방향을 보여주고 있습니다.

이번 발표는 단순한 모델 업그레이드라기보다 AI 산업의 경쟁 구도가 어디로 향하고 있는지를 보여준다는 점에서 의미가 있습니다. 최근 주요 AI 기업들은 모델의 추론 능력이나 벤치마크 점수 향상뿐 아니라, 실제 업무 환경에서 얼마나 오랫동안 안정적으로 작업을 수행할 수 있는지를 강조하고 있습니다. Claude Opus 4.8과 동적 워크플로우 역시 이러한 흐름 속에서 등장한 기술입니다.

더 오래 일하는 AI를 목표로 한 Claude Opus 4.8

앤트로픽은 Claude Opus 4.8의 핵심 특징으로 장시간에 걸친 복잡한 업무 수행 능력을 제시했습니다. 기존 대규모 언어 모델은 비교적 짧은 작업에서는 높은 성능을 보였지만, 작업 단계가 많아지거나 프로젝트 규모가 커질수록 오류가 누적되거나 맥락을 놓치는 문제가 있었습니다.

Claude Opus 4.8은 여러 단계의 작업을 계획하고 수행하는 과정에서 중간 결과를 점검하고 검증하는 능력을 강화했다고 설명됩니다. 특히 소프트웨어 개발, 리팩토링, 버그 수정과 같은 장기 작업에서 개선된 성능을 보인다는 것이 회사 측의 설명입니다.

또한 법률, 금융, 연구 분야와 같은 전문 업무를 주요 활용 영역으로 제시했습니다. 단순한 질의응답보다는 문서 분석, 보고서 작성, 의사결정 지원과 같은 업무를 겨냥하고 있다는 점이 특징입니다.

‘정확성’보다 ‘정직성’을 강조

이번 발표에서 눈에 띄는 부분은 정직성에 대한 강조입니다.

그동안 생성형 AI의 대표적인 문제 중 하나는 사실과 다른 내용을 자신 있게 제시하는 현상이었습니다. 이른바 환각(hallucination) 문제는 모델 성능이 향상된 이후에도 완전히 해결되지 않고 있습니다.

앤트로픽은 Claude Opus 4.8이 불확실한 상황에서 무리하게 답변을 생성하기보다 자신의 한계를 인정하도록 개선되었다고 설명했습니다. 즉, 답변의 양을 늘리는 것보다 근거가 부족한 경우 이를 명확히 표시하는 방향으로 조정되었다는 것입니다.

이는 단순히 모델의 지능을 높이는 것과는 다른 접근입니다. 실제 업무 환경에서는 틀린 답을 자신 있게 제시하는 것보다, 모르는 내용을 모른다고 말하는 편이 더 유용한 경우가 많기 때문입니다.

동적 워크플로우, AI 한 명이 아니라 AI 팀

함께 공개된 동적 워크플로우는 모델 자체보다 작업 방식에 초점을 맞춘 기능입니다.

기존 AI 코딩 도구는 사용자의 요청을 하나의 모델이 처리하는 구조였습니다. 반면 동적 워크플로우에서는 Claude가 작업을 여러 단계로 분해한 뒤 다수의 하위 에이전트를 생성해 병렬적으로 작업을 수행합니다.

예를 들어 대규모 소프트웨어 프로젝트를 새로운 버전으로 전환하는 작업이 주어지면, 일부 에이전트는 사용자 인터페이스를 수정하고 다른 에이전트는 테스트 코드를 점검하며 또 다른 에이전트는 의존성 문제를 분석하는 방식으로 역할을 나눌 수 있습니다.

이후 별도의 에이전트가 결과를 검토하고 오류를 찾는 과정까지 수행합니다. 앤트로픽은 이러한 구조를 통해 수십에서 수백 개의 하위 에이전트가 동시에 작업할 수 있다고 설명했습니다.

AI 성능 경쟁의 새로운 방향

동적 워크플로우가 보여주는 변화는 최근 AI 산업 전반에서 관찰되는 흐름과도 연결됩니다.

과거에는 하나의 모델이 얼마나 높은 성능을 내는지가 경쟁의 핵심이었습니다. 그러나 최근에는 여러 에이전트가 협력하는 구조, 장시간 작업을 수행하는 능력, 결과를 스스로 검증하는 체계 등이 새로운 경쟁 요소로 떠오르고 있습니다.

실제로 복잡한 소프트웨어 개발이나 보안 감사, 대규모 문서 분석과 같은 업무는 단순한 질문 응답과는 다른 문제입니다. 필요한 것은 순간적인 답변 능력이 아니라 작업을 분할하고 관리하며 검증하는 능력입니다.

동적 워크플로우는 이러한 요구에 대응하기 위한 시도로 볼 수 있습니다. AI를 하나의 지능적 개체로 바라보기보다, 여러 역할을 수행하는 작업 조직으로 활용하려는 접근에 가깝습니다.

아직은 비용과 검증이 필요한 단계

다만 이러한 접근이 실제 업무 환경에서 얼마나 효과적일지는 추가적인 검증이 필요합니다.

병렬 작업과 다수의 에이전트 활용은 더 많은 연산 자원과 토큰 사용량을 요구합니다. 작업 규모가 커질수록 비용도 증가할 가능성이 높습니다. 또한 여러 에이전트가 생성한 결과를 통합하는 과정에서 새로운 오류가 발생할 가능성도 배제할 수 없습니다.

현재 공개된 성과 대부분은 앤트로픽이 제시한 내부 평가와 초기 사용자 사례에 기반하고 있습니다. 실제 기업 환경에서 어느 정도의 생산성 향상을 제공할지는 앞으로의 활용 사례를 통해 확인될 것으로 보입니다.

AI는 ‘답변 도구’에서 ‘업무 수행 도구’로 가고 있습니다

Claude Opus 4.8과 동적 워크플로우는 현재 AI 산업이 어디에 초점을 맞추고 있는지를 보여줍니다.

관심의 중심은 더 이상 단순한 대화 성능이나 벤치마크 점수에만 있지 않습니다. 복잡한 업무를 얼마나 오랫동안 수행할 수 있는지, 결과를 얼마나 신뢰할 수 있는지, 그리고 여러 작업을 얼마나 효율적으로 관리할 수 있는지가 새로운 평가 기준으로 떠오르고 있습니다.