음성인식 인공지능 시대, 바벨탑 재건할까?

인공지능이 시대의 화두로 부상하며 음성인식 인공지능 스피커가 속속 베일을 벗고 있다. 아마존은 알렉사의 에코를 출시해 현재 시장을 선점했으며 구글은 구글 어시스턴트를 탑재한 구글홈을 공개했다.

애플도 인공지능 시리를 담아낸 홈팟을 공개해 연내 상용화를 선언했다. 마이크로소프트는 코타나를 탑재한 인보크를 하만과 공동으로 개발하고 있으며 삼성전자도 조만간 빅스비를 통해 인공지능 스피커를 출시할 가능성이 제기되고 있다. 당장 국내 통신사 중 KT는 기가지니, SK텔레콤은 누구를 출시했고 네이버는 웨이브 일본 출시에 나섰으며 카카오도 카카오미니를 연내 공개한다.

알파고 쇼크 후 인공지능이 시대를 관통하는 키워드가 되었지만, ‘왜 많은 기업들이 인공지능과 음성인식 스피커를 동시에 꺼내들었는가’에 대한 진지한 고찰이 필요하다. 두가지 측면에서 설명이 가능하다. 먼저 데이터 확보다. 인공지능은 방대한 데이터를 통해 스스로 학습하며 진화한다. 그리고 스피커는 주변의 다양한 정보를 빠르게 습득할 수 있는 플랫폼으로 제격이다.

다음은 인터페이스 혁명이다. 지난해 이인종 삼성전자 부사장은 비브랩스 인수 간담회에서 “사람과 기기의 인터페이스는 텍스트 입력에서 음성 피드백으로 변할 것”이라며 “미래 우리 아이들은 인터넷을 할 때 텍스트를 입력했다고 말하면 상당히 이상하게 생각할 것”이라고 말했다. 사람과 기기의 피드백 인터페이스가 텍스트에서 음성으로 변할 것이며, 이러한 변화가 인공지능을 음성인식 스피커에 스며들도록 만들 것이라는 논리다.

물론 음성을 인터페이스의 핵심으로 삼을 경우 사생활 침해를 비롯해 많은 부작용이 생기는 것도 사실이다. 하지만 데이터 확보와 인터페이스 변화를 촉발시키는 초연결 사회는 필연적으로 플랫폼을 필요로 하며 일종의 허브가 있어야 한다. 아직 스마트홈의 허브가 음성인식 스피커라고 단정할 수 없지만, 최소한 현 상황에서 가장 유력한 후보라는 점은 명확해졌다.

번역의 시대, 기본부터 부순다
인공지능과 음성인식 스피커의 만남이 이뤄지는 상황에서 각 기업의 번역기술에도 시선이 집중된다.

현재 글로벌 ICT 기업의 번역기술은 텍스트 중심으로 추진되고 있다. ‘인공지능과 음성’의 단계로 나아가는 상황에서 언어의 장벽은 아직 텍스트의 범위를 벗어나지 못하고 있다는 뜻이다. 하지만 텍스트를 시작으로 번역기술 발전이 음성의 영역으로 확대되고 있으며 번역 자체가 언어 생활권의 경계를 부수는 장면이 의미심장하다.

인공지능과 음성의 콜라보와 더불어 텍스트에서 시작된 번역기술의 발전은 말 그대로 통섭과 융합의 플랫폼을 위한 사전 포석으로 작동할 수 있기 때문이다. 번역기술의 발전으로 각 언어 생활권이 하나로 수렴, 추후 음성 인터페이스의 수준으로 나아간다면 그 자체로 모든 것을 아우르는 광역 플랫폼을 구축할 수 있다. 인공지능의 발전을 음성인식에서만 찾으면 곤란한 이유다.

그런 이유로 각 ICT 기업들은 번역기술 고도화에 상당한 노력을 집중하고 있다.

강자는 단연 구글이다. 지난해 11월 구글 번역팀은 ‘신경망 기계번역’(Neural Machine Translation)’을 통해 총 8개 언어에 대한 번역 서비스에 적용한다고 발표했다. 한국어도 포함된 8개 언어에 신경망 기계번역을 적용했다는 것은 그 자체로 놀라운 뉴스였다. 신경망 기계번역은 문장을 통째로 번역하는 방식이다. 단어를 떼어내어 의미를 맞추는 통계 기반 번역(SMT)과 같은 일차원적인 방식이 아니라 텍스트의 맥락을 파악할 수 있게 만든다.

구글은 텐서플로우를 기반으로 구글번역은 물론 구글포토, 이메일 탐지, 스팸메일 방지 등 다양한 서비스를 제공하고 있다. 19일(현지시간) 시작된 구글앱 시작화면 뉴스 콘텐츠 서비스도 이러한 경쟁력이 있기에 가능한 일이다. 포털 사업자로 활동하며 습득한 방대한 데이터를 통해 구글은 번역계의 왕으로 군림할 수 있었다.

아마존도 번역기술력을 키우고 있다. 인공지능 음성인식 스피커 시장에서는 구글보다 먼저 진출했으나 번역기술은 다소 뒤쳐졌다.

현재 아마존은 클라우드 자회사인 AWS를 연동해 자사 쇼핑몰과 웹사이트의 응용 프로그램을 다국어로 번역할 수 있는 기술을 개발하고 있다. 2015년 인공지능 번역 업체 사파바(Safaba)를 인수한 상태에서 차근차근 기술력을 확보했으며, 올해 11월 미국 라스베이거스에서 열리는 연례 컨퍼런스인 ‘리:인벤트’에서 공식 서비스를 발표할 예정이다.

페이스북도 번역기술시장에 도전장을 던졌다. 지난 5월 페이스북 인공지능 연구소는 컨볼루션신경망(CNN)을 이용한 번역기술을 오픈소스로 공개했으며 이는 한 문장 안에서 서로 떨어져 있어도 전체 문장을 이해하는데 도움이 되는 단어에 집중하는 방식이라는 후문이다. 페이스북은 이 방식이 일반에 나온 번역기술과 비교해 무려 9배 뛰어나다는 주장이다.

국내 네이버도 한칼이 있다. 인공지능 클로바를 통해 다양한 영역으로 진출하는 상황에서 최근 단행된 파파고의 정식 업데이트에 시선이 집중된다. 글자 수가 5000자로 늘었고 PC버전이 지원되기 때문이다.

현재 파파고는 일본어와 중국어, 스페인어를 비롯해 프랑스어에 적용돼 있으며 현대백화점과 신세계면세점은 물론 GS25, KEB하나은행과 청와대경호실, 서울지방경찰청 등 다양한 파트너에게 전문 서비스를 제공하고 있다. 하지만 1회 최대 번역 글자수가 200자에 불과해 실용성이 떨어진다는 아쉬움이 컸다. 그러나 이번 정식 서비스를 통해 외연을 크게 확장할 수 있을 전망이다.

파파고 김준석 리더는 “하반기에는 베트남어, 대만어, 인도네시아어, 태국어도 파파고를 통해 통역할 수 있도록 준비하고 있다”면서 “정식 서비스를 시작한 만큼 사용자들에게 보다 정확한 번역결과를 제공할 수 있도록 인공신경망 번역기술을 더욱 고도화 해나가겠다”고 말했다.

이 외에도 지니톡의 한글과컴퓨터, 시스트란, 그리고 네이버와 한때 표절논란을 겪었던 플리토 등이 번역시장에 진출한 상태다.

중국, 번역의 왕좌 노리는 최대 변수
중국의 인공지능 기술력은 이미 미국과 양강체제를 이루고 있다는 평가다. 올해 초 중국 정부는 국가급 연구원인 국가개발개혁위원회를 중심으로 오는 2018년까지 자국 인공지능 시장 규모를 약 17조원 규모로 키운다는 정책을 발표했으며, 일명 차이나 브레인 프로젝트를 통해 중국을 글로벌 인공지능 시장의 허브로 키운다는 각오를 보여주고 있다.

핵심은 BAT, 바이두와 알리바바를 비롯해 텐센트 삼각 트로이카다. 알리바바는 최근 인공지능 스피커인 티몰 지니 X1을 공개했고 텐센트도 O2O 로드맵에 인공지능 기술력을 녹여내는 방식을 고민하고 있다. 자사 모바일 메신저인 위챗을 통해 인공지능을 기본 인프라로 규정하는 방식이다.

돋보이는 곳은 바이두다. 중국의 구글이라 불리는 바이두는 일찌감치 인공지능 기술력에 집중했으며 5일 열린 바이두 개발자 회의에서 루치(陸奇) 바이두 업무최고책임자(COO)는 “바이두는 인공지능 기업이다”고 말하기도 했다. 바이두는 최근 2년간 인공지능 기술 확보를 위해 무려 3조3000억원의 투자를 단행하기도 했다.

물론 중국 인공지능 시장이 넘어야 할 산은 많다. 당장 저변확대가 변수다. 17일 블룸버그는 중국 인공지능 스피커 시장이 미국과 비교해 1/7 수준인 1400만대에 불과하다고 지적하기도 했다. 하지만 이 말은 성장의 여백이 넓다는 뜻과 일맥상통하기 때문에, 정부의 강력한 육성 정책을 바탕으로 중국 인공지능 업계의 전망은 상당히 밝은 편이다.

중국 기업은 번역기술에도 집중하고 있다. 역시 강세를 보이는 곳은 바이두다. 영어-중국어 단어 조합 총 1억 개의 데이터를 확보한 상태에서 인공지능 기술역량의 핵심을 번역기술에도 집중시키는 중이다. 번역을 중심에 두고 음성인식, 주문 등 각종 소프트웨어를 개발하는 인력만 약 1300명에 육박하며 국내 플리토와 협력하기도 했다.

번역을 포함한 바이두의 다양한 인공지능 서비스를 가능하게 만드는 것은 딥러닝 플랫폼 패들패들이 있기에 가능했다. ‘PArallel Distributed Deep LEarning’라는 단어의 앞 단어를 조합해 만들었으며 지난해 9월 오픈소스로 공개됐다. 분산환경을 위한 딥러닝 플랫폼이며 빠른 데이터 분석을 지원한다.

국내에 잘 알려지지는 않았으나 커다쉰페이는 ‘중국의 시리’라 불리는 아시아 최대 음성인식 인공지능 기업이다. 이들은 텍스트를 넘어 음성까지 아우르는 강력한 번역기술을 보유하고 있어 눈길을 끈다. 현재 커다쉰페이의 기술을 활용하는 기업만 40만개에 달하며, 이들은 커다쉰페이를 중심으로 거대한 인공지능 생태계를 만들고 있다.

텍스트에서 음성으로, 인공지능 생태계의 마지막 퍼즐
인공지능 시장이 음성인식 인터페이스를 추구하는 방식으로 흘러가는 상황에서 텍스트 기반 콘텐츠가 음성인식을 인터페이스로 삼을 것이라는 점도 확실해졌다. 이미 커다쉬페이는 가능성을 보여줬다. 영어로 말하면 한국어와 중국어 등으로 음성이 번역되는 한편 자막으로 동일한 서비스가 이뤄지기 때문이다.

결국 번역기술의 고도화는 광역 플랫폼을 구축하기를 원하는 ICT 기업의 행보와도 절묘하게 맞아 떨어진다. 기기와 사람, 기기와 기기가 연결되는 세상에서 음성을 중심으로 인터페이스 환경이 변한다면 마지막 남은 대단위 플랫폼 전략의 리스크는 언어의 장벽일 가능성이 높다. 이미 바벨탑은 재건되고 있다.

최진홍 기자 rgdsz@econovill.com

다른기사 보기

구독신청하러 가기

상단영역

본문영역

음성인식 인공지능 시대, 바벨탑 재건할까?

번역기 전성시대의 의미

기사 댓글 0

비회원 로그인