구글이 12일 제미나이 2.0(Gemini 2.0)을 전격 공개했다. 리서치, 보고서 작업 등 다양한 방면의 복잡한 작업을 수행하는 '에이전트' 기능을 전면에 걸고 다양한 가능성을 타진한다는 각오다. 지금까지 구글이 선보인 모델 중 가장 뛰어난 성능을 자랑하는 모델로, 네이티브 이미지 및 오디오 출력, 네이티브 툴 사용 등 향상된 멀티모달 기능을 제공한다는 설명이다.

구글은 이를 바탕으로 유니버설 어시스턴트(universal assistant)라는 큰 그림을 향해 질주한다는 방침이다.

선다 피차이 구글 CEO는 "전세계 20억 명이 이용하고 있는 구글의 핵심 제품 7개를 포함해 모든 제품을 재구상하고, 새로운 제품을 개발하는 데에도 제미나이가 활용되고 있다"면서 " 제미나이 2.0은 지금까지 선보인 모델 중 가장 뛰어난 성능을 자랑한다"고 강조했다.

그는 이어 "현재 10억 명의 이용자가 구글의 AI 개요(AI Overviews) 기능을 통해 완전히 새로운 유형의 질문을 할 수 있게 됐으며, 이는 가장 인기 있는 검색 기능 중 하나가 됐다"면서 "제미나이 2.0의 고급 추론 기능을 AI 개요에 적용해 고급 수학 방정식, 멀티모달 쿼리 및 코딩 등 더 복잡한 질문을 처리할 수 있도록 개선할 예정"이라 말했다.

제미나이 1.0이 정보를 구성하고 이해하는 수준이었다면, 제미나이 2.0은 정보를 훨씬 더 유용하게 만드는 데까지 나아갈 것이라는 메시지도 나왔다.

사진=구글
사진=구글

제미나이 2.0 플래시
제미나이 2.0 라인업의 첫 모델은 플래시다. 주요 벤치마크에서 제미나이1.5 프로보다 2배 빠른 속도로 뛰어난 성능을 보여줬다.

이미지, 동영상, 오디오와 같은 멀티모달 입력은 물론 텍스트와 이미지를 결합해 생성된 이미지, 조정 가능한 다국어 텍스트 음성 변환(TTS) 오디오와 같은 멀티모달 출력도 지원한다. 여기에 구글 검색, 코드 실행, 서드파티 이용자 정의 함수와 같은 툴도 기본적으로 호출할 수 있다고 밝혔다.

구글 검색의 AI 개요(AI Overview) 기능에도 적용되어 고급 수학 방정식, 멀티모달 쿼리, 코딩 등 더욱 복잡한 질문에 대한 답변을 제공하도록 개선시킨다는 방침이다.

구글은 "제미나이 2.0 플래시는 네이티브 이용자 인터페이스 액션 기능과 멀티모달 추론, 긴 컨텍스트 이해, 복잡한 명령 수행 및 계획, 구성 가능한 함수 호출(compositional function-calling), 네이티브 툴 사용, 더 짧아진 지연 시간 등 다양한 개선 사항이 모두 결합돼 완전히 새로운 차원의 에이전트형 기반 경험을 제공한다"면서 "새로워진 제미나이 2.0은 이전보다 훨씬 더 강력하고 유용한 AI 어시스턴트 경험을 제시한다"고 말했다.

제미나이 2.0 플래시는 구글 AI 스튜디오(Google AI Studio) 및 버텍스 AI(Vertex AI) 에서 제미나이 API를 통해 개발자에게 실험 모델로 만나볼 수 있다. 나아가 개발자가 더욱 역동적이고 인터랙티브한 애플리케이션을 구축할 수 있도록 실시간 오디오, 비디오 스트리밍 입력과 여러 툴들을 결합해 사용할 수 있는 새로운 멀티모달 라이브 API도 출시한다는 계획이다.

구글은 나아가 제미나이 2.0 개발 과정에서 안전 및 책임 문제를 최우선으로 고려해 '책임 및 안전 위원회(RSC)'와 협력하여 잠재적 위험을 식별하고, 'AI 지원 레드 티밍'을 통해 모델의 안전성을 지속적으로 개선하는 중이라 말했다.

사진=구글
사진=구글

톺아보기...아스트라부터 줄스까지
제미나이 2.0 아스트라가 인상적인 업데이트를 단행했다. 다국어 대화, 구글 툴(구글 검색, 구글 렌즈, 맵스 등) 사용, 최대 10분 동안의 대화를 기억하는 향상된 메모리, 빠른 응답 속도 등의 기능을 제공한다는 설명이다.

유연함이 극대화된 점이 인상적이다. 다양한 언어(multiple languages)와 혼합 언어(mixed languages)로도 대화가 가능하며, 다양한 억양과 생소한 단어까지 커버한다. 구글 검색, 구글 렌즈, 구글 맵스를 활용할 수 있고 이용자의 정보 보호를 최우선으로 하면서 기억력을 더욱 향상시켰다. 10분간의 대화 내용을 기억한다. 나아가 빠른 피드백으로 인간과 인간의 대화를 최대한 재현했다.

마리너(Project Mariner)도 등판했다. 웹 브라우저에서 작동하는 에이전트 프로토타입으로 픽셀 및 텍스트, 코드, 이미지, 양식과 같은 웹 요소를 포함해 브라우저 화면의 정보를 이해하고 추론한다. 이어 실험적인 크롬 확장 프로그램(Chrome extension)을 통해 해당 정보를 활용해 작업을 완료할 수 있다.

제미나이 2.0으로 구축된 초기 연구 프로토타입이다. 아직 초기지만 에이전트 성능을 테스트하는 WebVoyager 벤치마크에서 단일 에이전트 설정으로 작동하여 최첨단 결과인 83.5%를 달성하기도 했다. 또 마리너는 구글이 AI 인프라를 키우며 웹 생태계를 염두에 두고 있다는 증거이기도 하다.

줄스(Jules)는 개발자들을 위한, 혹은 개발자들을 위협하는 도구다. 깃허브(GitHub) 워크플로우에 직접 통합돼 개발자의 지시와 감독 하에 이슈를 처리하고, 계획을 세우고 실행하는 기능이다. 궁극적으로 코딩을 포함한 모든 영역에서 도움이 되는 AI 에이전트를 구축하는 것이 구글의 장기적인 목표다.

줄스. 사진=구글
줄스. 사진=구글

한편 구글은 게임에서 흥미로운 AI 에이전트 실험을 거듭하고 있다. 단일 이미지에서 무한하게 다양한 플레이가 가능한 3D 세계를 만들 수 있는 AI 모델 ‘지니 2(Genie 2)’가 등판한 가운데 구글은 슈퍼셀(Supercell)과 같은 선도적인 게임 개발사와 협력해 ‘클래시 오브 클랜(Clash of Clans)’과 같은 전략 타이틀부터 ‘헤이 데이(Hay Day)’와 같은 농장 시뮬레이터에 이르기까지, 다양한 게임에서 에이전트가 규칙과 과제를 해석하는 능력을 테스트하는 것으로 알려졌다.

제미나이 2.0 학습에 사용된 6세대 TPU '트릴리움(Trillium)'도 공개했다. 이전 세대 TPU보다 훈련 성능, 추론 처리량 및 에너지 효율성이 크게 향상됐다는 설명이다.

딥 리서치. 사진=구글
딥 리서치. 사진=구글

비밀무기, 딥 리서치
구글은 제미나이 어드밴스드(Gemini Advanced)로 제미나이 2.0을 발표하며 동시에 딥 리서치(Deep Research)도 내놨다. 

딥 리서치는 AI를 활용해 복잡한 주제를 탐구하고, 그 결과를 이해하기 쉬운 보고서 형태로 제공하는 기능을 가지고 있다. 추론과 탐구를 통한 연구에 특화된 AI다. 이용자 지시에 따라 복잡한 연구를 대신 수행한다. 질문을 입력하면 딥 리서치는 여러 단계로 연구 계획을 제시하고, 이용자는 이를 수정하거나 승인할 수 있다.

구글은 웹에서 관련 정보를 찾는 구글의 노하우를 바탕으로 제미나이가 웹을 탐색하고 조사하도록 설계된 새로운 시스템을 구축했다. 제미나이의 고급 추론 기능 및 업계 최고의 100만 토큰 컨텍스트 윈도우와 결합되어 읽기 쉬운 인사이트를 갖춘 종합적인 보고서를 생성한다는 설명이다.

모델 드롭다운 메뉴에서 ‘딥 리서치를 탑재한 제미나이 1.5 프로(Gemini 1.5 Pro with Deep Research)’를 선택하면 만날 수 있다.