logo

구글, 고도화 멀티모달 AI ‘Gemini 3.1 Pro’ 공개

추론 중심 성능 향상을 통해 다양한 데이터와 복잡한 작업을 통합적으로 처리하는 차세대 AI 모델을 발표했습니다.

Key points

  • 텍스트·이미지·영상·코드 등 멀티모달 입력을 동시에 처리하는 구조로 확장성을 확보했습니다.
  • 주요 벤치마크에서 기존 모델 대비 크게 향상된 성능을 기록했습니다.
  • 개발자, 기업, 일반 사용자까지 다양한 플랫폼을 통해 순차적으로 배포되고 있습니다.

구글은 2월 19일 고도화된 멀티모달 인공지능 모델인 Gemini 3.1 Pro를 공개했습니다. 이번 모델은 단순 질의응답을 넘어 복잡한 문제 해결 능력에 초점을 맞춘 것이 특징입니다.

멀티모달 기반의 차세대 AI

구글에 따르면 Gemini 3.1 Pro는 텍스트, 오디오, 이미지, 비디오, 코드 저장소 등 다양한 형태의 데이터를 동시에 처리할 수 있는 멀티모달 구조를 갖추고 있습니다. 특히 최대 100만 토큰의 컨텍스트 윈도우와 64K 토큰 출력 지원을 통해 대규모 정보 처리 능력을 강화했습니다.

이번 업그레이드는 Gemini 3 Deep Think의 성과를 가능하게 한 핵심 지능 향상을 기반으로 개발됐습니다. 구글은 해당 모델을 소비자, 개발자, 기업용 제품 전반에 순차적으로 배포하고 있습니다.

배포는 개발자의 경우 Google AI Studio의 Gemini API와 Gemini CLI, Antigravity, Android Studio를 통해 이루어지며, 기업 고객은 Vertex AI와 Gemini Enterprise에서 활용할 수 있습니다. 일반 소비자는 Gemini 앱과 NotebookLM을 통해 접근 가능합니다.

추론 능력 중심의 도약

Gemini 3.1 Pro는 특히 추론 능력 향상에 초점을 맞춰 복잡한 문제 해결 성능을 크게 끌어올렸습니다. 대표적으로 ARC-AGI-2 벤치마크에서 77.1%의 검증 점수를 기록하며 이전 모델 대비 두 배 이상의 성능 향상을 보였습니다.

주요 성능 지표에서도 전반적인 개선이 확인됩니다. ARC-AGI-2는 기존 31.1%에서 77.1%로 상승했으며, GPQA Diamond는 94.3%, Terminal-Bench 2.0은 68.5%를 기록했습니다. 또한 LiveCodeBench Pro에서는 Elo 2887을 달성했고, BrowseComp에서는 85.9%의 성능을 나타냈습니다.

이러한 벤치마크는 새로운 논리 패턴을 해결하는 능력을 평가하는 지표로, 구글은 Gemini 3.1 Pro를 “더 똑똑하고 유능한 기본 모델”로 규정하고 복잡한 문제 해결의 기반 모델로 제시했습니다.

실용성과 창의성의 결합

Gemini 3.1 Pro는 고급 추론 능력을 실제 활용 가능한 형태로 구현하며 다양한 응용 가능성을 보여주고 있습니다. 시각적으로 복잡한 개념을 설명하거나, 여러 데이터를 통합해 하나의 결과로 제시하는 기능이 대표적입니다. 또한 창의적 프로젝트를 코드로 구현하는 능력도 강화됐습니다.

구체적인 사례로는 텍스트 프롬프트만으로 웹사이트용 SVG 애니메이션을 생성해 해상도 손실 없이 파일 크기를 최소화하는 기술이 있습니다. 또한 국제우주정거장 궤도를 실시간으로 시각화하는 대시보드 구축과 같은 복잡한 시스템 통합도 가능해졌습니다.

이와 함께 3D 스타링 무리 시뮬레이션을 기반으로 손 추적 및 음악 반응형 인터페이스를 구현하는 등 인터랙티브 디자인 영역에서도 활용되고 있습니다. 문학 작품인 폭풍의 언덕의 분위기를 반영한 현대적 포트폴리오 웹사이트 설계 사례도 제시되며 창의적 코딩 역량 역시 강조되고 있습니다.