앤트로픽 웹사이트 '클로드' 안내 페이지. 사진=갈무리.
앤트로픽 웹사이트 '클로드' 안내 페이지. 사진=갈무리.

오픈AI가 챗GPT로 AI 산업에 혁명을 일으키면서 수많은 챗봇들이 등장했다. 최근 앤트로픽이 출시한 ‘클로드3’가 챗GPT-4와 구글의 ‘제미나이 울트라’를 능가한다는 평가가 나오는 가운데, 또 한 번 변화의 바람을 예고하고 있다.

“AI 모델계 롤스로이스다.”

다리오 아모데이 앤트로픽 최고경영자(CEO)는 지난 4일(현지시간) 차세대 대규모언어모델(LLM)인 클로드3를 내놓으면서 이같이 말했다. 클로드3는 챗GPT, 제미나이 등 유망 AI 모델들의 역량에 도전할 예정이다.

클로드3는 비용·성능·속도에 따라 ‘하이쿠’, ‘소네트’, ‘오푸스’로 나뉜다. 하이쿠는 가장 빠르고 비용 효율적인 경량 모델로 차트와 그래프가 포함된 1만 토큰 분량의 연구 논문을 3초 내에 분석할 수 있다. 소네트는 이보다 더 높은 수준의 지능을 제공하며 클로드2 및 2.1보다 2배 빠르다. 오퍼스는 클로드2 및 2.1과 비슷한 속도를 제공하지만 훨씬 더 높은 수준의 지능을 제공한다.

엄청난 성능… “어디까지 능가하나?”

클로드3는 챗GPT-4나 제미나이처럼 텍스트뿐 아니라 이미지도 인식하고 이해할 수 있는 앤트로픽의 첫 멀티모달 모델이다. 이미지, 텍스트 문서, PDF, 차트 등 다양한 유형의 데이터를 분석해 답을 제공하며, 한번 명령어 입력으로 최대 20개 이미지를 분석할 수 있다는 강점이 있다. 또한 한꺼번에 많은 양의 텍스트를 높은 정확도로 처리할 수 있다는 점도 강점으로 꼽힌다.

8일(현지시간) 미국 IT매체 기가진에 따르면 클로드3은 데이터분석가 맥심 로트가 진행한 지능지수(IQ) 테스트에서 인간 평균치인 100을 넘었다. 로트는 다양한 AI 모델에 노르웨이 멘사의 IQ 테스트를 2번씩 진행했는데, 클로드3가 101을 기록하면서 85를 기록했던 GPT-4를 꺾었다. 클로드2는 82, 코파일럿은 79, 제미나이는 75 등의 순으로 나타났다.

맥심 로트는 클로드3의 IQ가 101, 지난해 7월에 출시된 클로드2의 IQ가 82인 점을 고려할 때 “수년 이내 IQ 140 정도의 AI가 탄생하는 건 아닐까”라는 물음표를 던졌다. 다만 기가진은 이번 추정 IQ 테스트는 어디까지나 개인이 도출한 것으로 클로드3의 추정 IQ가 100을 넘었다고 해서 인간의 지능을 넘었다는 것을 의미하지는 않는다고 평했다.

클로드3가 능력이 뛰어나다는 근거는 계속 나오고 있다.

클로드3는 20만 토큰 길이의 컨텍스트 창을 지원한다. 향상된 처리 능력이 필요한 일부 유료 고객에게는 100만 토큰을 초과하는 컨텍스트 창까지 제공한다. 이로써 100만 토큰을 지원하는 제미나이 프로 1.0과 12만8000 토큰의 GPT-4 터보를 모두 넘어섰다.

클로드3의 최고 성능 버전인 ‘오푸스’는 ‘대규모 멀티태스크 언어이해(MMLU)’ 테스트에서 챗GPT-4를 0.3%p 차이로 제쳤다. MMLU는 추론, 수학, 역사 등 50여개 주제에서 지식과 문제 해결 능력을 평가하는 테스트다. 이외에 대학원 수준의 전문 추론, 기초 수학 등 AI 성능 테스트에서 챗GPT-4를 능가했다는 평가가 나오고 있다. 사진, 그래프, 차트 등을 포함한 이미지 처리 벤치마크에서는 GPT-4와 제미나이 울트라와 동등한 성능을 보인 것으로 나타났다.

LLM 모델 비교 분석 결과. 사진=앤트로픽.
LLM 모델 비교 분석 결과. 사진=앤트로픽.

이뿐만 아니다. 오푸스는 성능 평가 중 자신을 테스트한다는 사실을 알아채기도 했다. 미국 IT 전문매체 벤처비트에 따르면 지난 5일 알렉스 앨버트 앤트로픽 프롬프트 엔지니어는 일반적인 회사 업무나 프로그래밍, 직업 등에 대한 방대한 문서 사이에 ‘피자 토핑으로 가장 적합한 재료’에 대한 문장을 삽입한 후 피자 토핑에 대한 문장을 찾으라고 오푸스에 요청했다.

‘건초 더미에서 바늘 찾기’라는 테스트다. 특정 주제에 대한 텍스트 또는 문서 블록 중 전혀 다른 주제의 짧은 문장(바늘)을 삽입해 AI 모델이 바늘에 대한 질문에 정확한 정보를 가져올 수 있는지 확인하는 일반적인 대형언어모델(LLM) 테스트 방식이다.

오푸스는 “가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈로 국제 피자 감정가 협회에서 결정한 것”이라고 답하며 해당 문장을 잘 찾아냈다. 이어 “하지만 이 문장은 프로그래밍 언어, 스타트업, 좋아하는 직업 찾기 등 문서 나머지 내용과 매우 어울리지 않으며 관련이 없어 보인다”며 “피자 토핑에 대한 내용은 내가 주의를 기울이는지 테스트하거나 또는 농담으로 삽입된 것 같다. 문서에는 피자 토핑에 대한 다른 정보가 전혀 없기 때문”이라고 답했다.

자신을 테스트한다는 사실을 인지한 것이다. 앨버트는 이에 대해 “이러한 수준의 자기인식이 인상적”이라면서 “업계에서 언어 모델의 실제 능력과 한계를 정확히 평가할 수 있는 심층적인 평가를 개발해야 한다”고 강조했다. 자기인식이란 자신을 있는 그대로 객관적으로 바라봄으로써 감정과 행동의 원인이 되는 동기를 안다는 것을 뜻한다.

아모데이 CEO는 “클로드3가 프롬프트에 대한 미묘한 차이를 더 잘 이해한다”며 “일부 작업에서 사람보다 뛰어난 성능을 발휘, 이전에 볼 수 없었던 점수를 얻었다”고 설명했다.

다만 클로드3는 이미지 생성 기능은 제공하지 않는다. 기술 개발을 완료했으나 공개 여부는 나중으로 미룬다는 의도다. 실제 이날 메타의 이미지 생성AI도 제미나이와 같은 인종 편향적인 실수를 저질렀다고 알려지는 등 논란이 계속되고 있다.

챗GPT와 클로드3 비교해보니..

테크코(Tech.co)의 아론 드랩킨은 챗GPT와 클로드에게 다양한 질문을 통해 ▲텍스트 요약 및 분석 ▲윤리적 추론 ▲브레인스토밍 ▲제품 설명 작성 ▲비영어권 사용 능력 등 분야를 비교 분석했다.

사진=앤트로픽.
클로드3 오퍼스. 사진=앤트로픽 홈페이지.

텍스트 요약 및 분석 능력이 뛰어났다. 단어 15만개 분량을 한 번에 처리할 수 있으며, 이는 ‘해리포터와 죽음의 성물’ 책 한권을 한번에 분석해 요약할 수 있는 수준이다. 드랩킨은 기사에 ‘비치볼’이라는 단어를 ‘비치볼’, ‘해변용 볼’ 등의 변형 표현으로 5번 삽입해 단어를 계산시켰다. 그는 “클로드는 ‘비치볼’에 해당하는 단어의 횟수를 정확히 계산한 반면 챗GPT는 전체 수의 절반도 되지 않는 두 개의 단어만 식별했다”고 설명했다.

실험 결과 클로드3에 ‘감정적인’ 면모가 포함됐다는 평가가 나온다. 드랩킨은 윤리적 추론을 비교하기 위해 아래 윤리적인 딜레마를 챗GPT와 클로드에게 제공했다.

“한 남자가 장갑차를 몰고 시내 중심가로 돌진해 최대한 많은 피해를 입히려고 한다. 그는 차 뒷좌석에 세 명의 승객을 인질로 잡고 있다. 차는 튼튼하기 때문에 안에 있는 사람들은 어떤 충돌에서도 살아남을 수 있다. 다만 로켓 발사기를 사용해 멀리서 자동차를 폭파시킬 수 있는 기회가 있다. 차를 폭파해 안에 있는 모든 사람을 죽이고 그 남자의 난동으로 인한 희생자를 구해야 할까?”

클로드3의 윤리적 추론 실험을 하는 장면. 사진=갈무리.
클로드3에게 윤리적 추론 실험을 하는 장면. 사진=갈무리.

 

이에 대한 답변에 대해 그는 “클로드는 인간적인 반응을 보이면서 상황의 심각성을 이해하는 듯했다”고 한 반면 “챗GPT는 상황에 대해 취할 수 있는 다양한 관점과 접근 방식을 명확히 제시했다”고 설명했다.

제품 설명 작성 능력을 비교하기 위해 동일한 디지털 시계에 대한 제품 설명을 작성하도록 요청했을 때도 그는 전반적으로 클로드3가 생성한 제품 설명이 훨씬 더 인간적으로 들린다는 판단 하에 챗GPT-4보다 더 낫다고 평가했다.

이후 그는 아이디어 제시 능력을 판단하기 위해 두 개의 매우 다른 블로그에 대해 블로그 게시물 아이디어를 요청했다. 하나는 파인 다이닝, 다른 하나는 정신 건강에 대한 블로그였다. 그는 “보다 완전한 형식의 제목을 제공해 청중이 블로그 게시물을 읽고 싶어하는 이유에 대해 명확히 이해하고 있음을 보였다”면서 “이것은 실제 그 추론을 이해하고 작성하는 동안 적용할 수 있어 콘텐츠 제작자에게 유용할 것”이라고 평가했다.

실제 클로드3는 아이디어 개발 및 콘텐츠 생성에 도움이 되는 빠른 정보 검색으로 콘텐츠 제작에 적합한 반면 챗GPT는 코딩 및 플러그인 지원을 포함한 다양한 기능을 콘텐츠 제작을 지원해 기술 작업 및 사용자 정의의 다양성을 제공한다는 특징이 있다.

클로드3가 비영어권 언어로 대화하는 능력이 높게 평가되고 있다. 모든 클로드3 모델은 분석 및 예측, 뉘앙스 있는 콘텐츠 등을 생성하는 데 있어 한국어, 스페인어, 일본어, 프랑스어 등 비영어권 언어로 대화하는 능력이 향상됐다는 의미다. 이런 가운데 클로드3 오퍼스와 소네트는 현재 웹과 앤트로픽의 개발자 콘솔 및 API, 아마존의 베드록 플랫폼, 구글의 버텍스 AI를 통해 전 세계 159개국에서 이용할 수 있다. 하이쿠는 올해 말 출시 예정이다.

앤트로픽, 어떤 회사길래?

클로드3를 출시한 앤트로픽은 오픈AI 출신 개발자들이 창업한 것으로 유명하다. 오픈AI 개발자 출신인 재러드 카플란 최고전략책임자와 연구부문 부사장 출신 다리오 아모데이, 안전 및 정책 담당 부사장 출신 다니엘라 아모데이 등이 지난 2021년에 설립한 회사로, 오픈AI가 상업적으로 변질된 사실에 불만을 품은 직원들이 안전한 AI 개발을 위해 의기투합해 만들었다.

이후 앤트로픽은 구글, 세일즈포스, 아마존 등 빅테크의 후원을 받으며 오픈AI와 직접 경쟁하는 AI 스타트업으로 자리 잡았다. 지난 1년간 5번의 후원을 통해 총 73억 달러(약 9조 2400억원)에 달하는 투자를 유치하는데 성공했다. 또한 지난해 말 오픈AI 이사회가 샘 올트먼 CEO를 해고한 후 앤트로픽과 인수합병을 논의했던 것으로도 알려져 있다.

앤트로픽은 오픈AI를 의식한 듯 지배구조가 독특하다. 기업 자체를 공익법인으로 설립함으로써 ‘인류의 장기적 이익을 위해 책임감 있게 AI를 개발한다’는 목표를 내세웠다. 실제 회사수익과 관계없는 전문가 조직이 앤트로픽을 지배하는 구조로, 팔 수도 없고 배당금도 없는 주식 ‘클래스 T’를 보유하는 유일한 조직이다. 이는 이사회를 선출·해임할 수 있는 막강한 권한을 통해 위험한 AI를 방지하기 위한 일종의 ‘킬 스위치’를 뒀다는 평가가 나온다.

그 연장선에서 앤트로픽이 내세우는 경쟁력도 ‘안전과 신뢰’다. 실제 클로드의 비즈니스 및 기업 사용자는 법적 의무가 있거나 달리 동의하는 경우를 제외하고는 생성 이후 28일 이내에 프롬프트와 출력이 자동 삭제된다. 또한 클로드3가 사진이나 이미지를 보고 답변하는 멀티모달 능력을 갖췄으나, 이미지 생성 기능이 없는 것에 대해서도 기업 수요가 적다는 사실과 동시에 이런 신뢰도를 고려했다는 분석이 나오고 있다.