“gg(good game) Humans(인류는 끝났다)”

15일(현지시간) 일론머스크 테슬라 CEO는 오픈AI가 공개한 ‘소라’를 접한 후 X(옛 트위터)에 이 같은 반응을 보였다. gg는 게임에서 쓰는 용어로 승부에서 졌을 때 패배를 인정한다는 의미다.

영상 생성 AI 소라가 등장했다. 구글이 챗GPT의 대항마로 제미나이 카드를 꺼내든 가운데, 최근 구글 '뤼미에르' 공개에 이어 오픈AI가 영상 생성 AI '소라'를 공개하면서 폭발적인 반응이 나오고 있다. 이에 생성 AI 기술 경쟁은 언어, 이미지를 넘어 비디오 등 전방위에서 펼쳐질 전망이다. 

선두업체 런웨이... "게임이 시작됐다"

영상 생성AI 분야는 데이터 확보, 처리 속도 등 기술적인 난제에 부딪혀왔다. 이에 영상 생성AI의 결과물은 5~15초에 불과했다. 그 가운데 오픈AI가 지난 15일(현지시간) 영상 생성 AI ‘소라(Sora)’로 만든 1분짜리 영상을 공개한 것이다. 이는 길이에서는 물론 퀄리티에서 화제가 되었을 뿐만 아니라 현재 다른AI와 시너지를 내면서 다양한 결과물들을 만들어내고 있다.

게임이 시작됐다는 평가가 나온다. 영상 생성 AI 분야 선두 업체인 ‘런웨이’는 X(옛 트위터)를 통해 “게임 시작”이라는 짤막한 글을 올렸다. 오픈AI가 공개한 영상은 생생한 소리와 인물 및 풍경 묘사의 퀄리티 뿐만 아니라 빠른 속도감과 영상 길이 등에서 높은 평가를 받으며 사람들에게 강한 인상을 남겼다.

오픈AI의 야심작이다. 오픈AI는 블로그를 통해 “소라가 현실 세계를 이해하고 모사하는 능력을 가진 것은, 인공일반지능(AGI)를 개발하는 데 중요한 이정표가 될 것”이라고 밝혔다. 오픈AI는 “소라는 여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 영상을 빠르게 제작할 수 있다”며 “소라가 사용자 프롬프트에서 요구하는 것뿐만 아니라 현실 세계에 사물이 존재하는 방식도 이해한다”고 강조했다. 기존보다 ‘맥락’을 더 깊이 파악한다는 의미다.

사진=소라 샘플 영상 갈무리.
사진=소라 샘플 영상 갈무리.

실제 영상을 보니 검은 선글라스를 쓴 여성이 붉은색 긴 원피스에 검은색 가죽재킷을 입고 자연스럽게 밤거리를 걸어다닌다. 휘황찬란한 거리의 불빛과 함께 여성의 피부결과 잡티, 목주름까지도 보이면서 고화질 카메라로 촬영한 듯한 착각에 빠지게 만들었다.

커뮤니티와 전문 매체의 반응은 가히 폭발적이었다. 기술 전문 매체 테크노피디아는 ‘최고의 AI 비디오 생성기인가, 아니면 헐리우드의 종말인가’라는 기사를 냈으며, “소라의 등장은 엔터테인먼트의 구조 자체를 재편하는 엄청난 변화의 시작”이라고 소개했다.

일부 예술가와 전문가들은 극단적인 반응을 내놓기도 했다. 토마스 벨린저 컷백 프로덕션 창립자는 AFP와의 인터뷰에서 “단 몇주 만에 기술이 이렇게 도약하리라고는 누구도 상상하지 않았다”며 “창작에 대한 다른 방법을 찾아야 할 때가 왔다”고 밝혔다.

소라는 챗GPT와 같은 TTV(Text To Video) 멀티모달 AI다. 텍스트만으로 동영상을 만들 수 있으며, 기존 이미지를 통해서도 영상을 제작할 수 있다. 또한 기존 동영상의 확장 및 누락 프레임 채우기 등도 가능하다. 현재 오픈AI는 소수에게만 소라를 공개한 상황이다.

영상 생성AI 경쟁.. “구글, 오픈AI와 줄다리기 시작”

빅테크 간 경쟁이 전방위로 확장되는 움직임이다. 오픈AI가 챗GPT를 낸 후, 구글이 제미나이를 발표했으나, 영상 생성AI에서는 구글이 조금 더 빠르게 움직였다. 바로 ‘뤼미에르’라는 툴을 지난 1월 발표하면서다.

사진=뤼미에르 샘플 영상 갈무리.
사진=뤼미에르 샘플 영상 갈무리.

오픈AI의 소라가 텍스트로 영상을 만드는데 탁월한 성능을 보였다면, 뤼미에르는 텍스트를 영상으로 만들 뿐만 아니라 이미지를 영상으로 만들거나 영상의 특정 부분을 바꾸거나 채우는 부분에서 좋은 성능을 갖췄다는 분석이 나오고 있다.

뤼미에르는 비디오 전체를 한 프로세스로 생성하는 ‘시공간 U-넷’ 아키텍처가 핵심이다. 비디오 속 사물이 있는 위치에 대한 공간적 측면과 동영상 전체에서 사물이 어떻게 움직이고 변화하는지에 대한 시간적 측면 등을 동시다발적으로 처리할 수 있도록 설계됐다. 이에 따라 처음부터 끝까지 영상을 하나의 원활한 과정으로 보일 수 있게 하는 것이다.

큰 장점은 다양한 편집 기능이다. 텍스트를 비디오로 변환하면서 이미지의 가려진 부분을 구현할 뿐만 아니라 특정 영역에 애니메이션 효과를 넣을 수도 있다. 다만 뤼미에르는 현재 연구 단계로 출시를 앞두고 있으며, 5초 정도의 짧은 영상 위주로 제작할 수 있다.

실제 뤼미에르의 예시 영상들을 살펴봤다. 하나의 영상을 다양한 버전의 영상으로 바꿀 수 있는 샘플 영상이 인상적이었다. 하나의 영상을 나무조각, 종이 예술, 레고, 꽃으로 다양하게 표현해 제작한 모습을 볼 수 있다. 영상 변환과 복원에 뛰어난 장점을 지닌 것으로 추정된다.

구글이 뤼미에르를 발표한 후, 오픈AI가 ‘소라’를 공개하면서 영상 생성AI 경쟁이 뜨겁게 달아오르는 모양새다. 앞서 메타는 2022년 ‘메이크 오 비디오’를 공개했고, 지난해 6월 런웨이는 고성능을 갖춘 ‘젠2’를 출시하면서 업계 선두로 지목된 바 있다. 이어 스테빌리티AI는 ‘스테이블 비디오 디퓨전’을 공개하는 등 여러 기업들이 영상 생성AI 경쟁에 뛰어들고 있다.

오픈AI와 구글, “불꽃 튀는 AI 경쟁”

이외에도 오픈AI와 구글이 서로 견제하는 움직임이 심상치 않다. 폐쇄형 전략을 추구해온 구글은 챗봇 개발을 위한 대규모언어모델(LLM)을 외부 개발자들이 이용할 수 있도록 개방했으며, 오픈AI는 검색 분야로의 진출까지 노리는 모습이 포착됐다. 

둘의 견제는 챗GPT 등장부터 격화되기 시작했다. 구글은 챗GPT에 맞서 자체 챗봇 바드를 출시한 이후 제미나이, 제미니 등을 공개하면서 생성 AI 경쟁에서 빠르게 추격하고 있다. 빅테크 기업들은 선두주자가 되기 위해 엎치락뒤치락하면서 생성 AI 서비스를 쏟아내기 시작했다.

그러던 중 구글이 또다른 서비스와 함께 폐쇄형 전략에서 오픈형 전략으로 방향을 틀었다. 

지난 21일(현지시간) 구글은 자사 블로그를 통해 “책임감 있게 AI를 이용하는 개발자와 연구진들을 지원하기 위해 새로운 세대의 오픈 모델을 공개한다”며 ‘젬마’를 소개했다. 이는 구글의 차세대 LLM인 ‘제미나이’ 개발에 사용된 것과 같은 기술로 구축된 최첨단 경량 오픈 모델 군이다.

구글 공식 블로그에서 젬마를 소개하고 있다. 사진=구글 공식 블로그 갈무리.
구글 공식 블로그에서 젬마를 소개하고 있다. 사진=구글 공식 블로그 갈무리.

생성AI 모델을 일반에 공개하면서 앞으로 대중화 속도가 빨라질 전망이다. 구글은 오픈소스 정신을 실천하다가 챗GPT 등장 이후 폐쇄적인 입장으로 돌아섰다가 다시 오픈소스 진영으로 돌아가고 있다. AI 모델 공개가 독점보다 오히려 플랫폼 장악에 유리하다는 판단이라는 목소리가 나온다.

한편 오픈AI는 챗GPT-4의 매개변수조차 공개하지 않는 등 폐쇄 정책을 일관하고 있다. AI 시대 초반에 기술 우위를 유지하기 위해서라는 분석이 나오며, 현재 발표한 ‘소라’ 등에서도 좋은 반응을 얻으며 실제 효과를 보고 있다.

오픈AI는 발빨리 움직이면서 구글의 텃밭인 검색 분야까지 넘보고 있다. 디 인포메이션은 14일(현지시간) 오픈AI가 웹 검색 도구를 개발하고 있다며, 부분적으로 MS '빙' 서비스를 통해 제공될 예정이라고 보도했다. 

이러한 구글과 오픈AI의 신경전이 AI 생태계 전반으로 확대되면서 개발 속도가 더욱 빨라질 전망이다. 이와 함께 AGI(Artificial General Inelligence) 개발 가능성에 대해서도 관심이 집중되는 상황이다.