글로벌 ICT 업계의 화두 중 하나는 인공지능이다. 4차 산업혁명 중심의 초연결 인프라에서 인공지능이 맡아 처리할 수 있는 다양한 영역이 눈길을 끈다. 일자리 문제 및 사회공학적 차원의 접근법 등 다양한 이야기가 가능한 가운데, 최근 인공지능의 트렌드 중 하나인 음성 및 솔루션 고도화의 흥미로운 지점도 눈길을 끈다.

현재 구글어시스턴트를 비롯해 알렉사, 그 외 인공지능 기술력들 대부분은 경쟁적으로 스피커에 집중하고 있다. 당장 국내만 봐도 SK텔레콤이 누구를 출시하며 비슷한 트렌드를 보여준 바 있다. 텍스트 및 챗봇의 경쟁력과 만나는 경우도 많지만, 현 상황에서 인공지능과 스피커의 결합은 당연한 수순으로 보인다.

왜 음성일까? 진입장벽이 낮기 때문이다. 소니 워크맨의 혁신을 떠올리면 쉽게 이해할 수 있다. 당시 워크맨은 '이동하며 음악을 들을 수 있다'는 기본적인 경쟁력과 더불어 '음악을 듣는 행위와 양 손을 자유롭게 놀릴 수 있다'는 파격적인 사용자 경험이 혼재되어 큰 반향을 끌었다.

내 손안의 PC를 지향한 스마트폰도 마찬가지다. 특정 행위를 동시에 하며 일종의 멀티 태스킹이 가능한 사용자 경험의 추구. 인공지능이 음성 중심으로 로드맵을 보여주는 이유도 결국 여기에 있다. 인간의 언어는 매우 쉽게, 어떤 상황에서도 가능하기 때문이다. 방에 누워 리모컨 버튼을 누르는 것도 좋지만, 방에 누워 편하게 말만하면 더 좋다.

그런 이유도 대부분의 ICT 기업들은 음성에서 출발해 인공지능 인프라를 구축한다. 당연히 빅데이터적 관점에서 고무적인 성과를 거둘 수 있기에 일종의 생태계 전략도 빨라질 수 있다. 삼성전자가 타이젠을 통해 기존 가전 인프라를 하나로 묶어내는 방식이나 그 외 인공지능 관련 기업들이 경쟁적으로 스피커를 출시하는 배경이다.

물론 언어학적 측면이 걸린다. 당장 LG전자의 LG G6의 경우 구글 어시스턴트를 차용한 관계로 당분간 한국어 명령을 내릴 수 없다. 이 부분에 대한 고민은 번역학적 측면에서 풀어가야 한다. 구글의 탁월한 번역기 능력과 네이버의 파파고 등이 눈길을 끄는 이유다.

하지만 여기서 생각해야할 대목이 있다. 음성인식 기반의 인공지능 기술력의 그림자다. 일단 진입장벽이 낮다는 것은 일상생활의 데이터를 빠르게 모아 강력한 생태계를 구축할 수 있지만, 이는 철저히 기업 중심의 마인드다. 소비자 관점에서 생각하면 불편한 점이 다수 보인다. 음성을 기반으로 인공지능이 작동하기 때문에 예기치 못한 사고가 발생하는 사례가 대표적이다.

지난 1월 미국의 CW6 TV는 아마존 에코를 이용해 아버지의 허락을 받지 않고 집에 쿠키를 주문한 소녀의 해프닝을 다뤘다. 그런데 뉴스 말미 남성 앵커가 테스트를 명목으로 "알렉사, 인형의 집을 주문해줘"라는 멘트를 날렸고, 진짜 문제는 이때 발생했다. 해당 방송을 보고있던 미국 전역의 알렉사가 이를 실제 명령으로 인식해 인형의 집을 아마존에 주문하는 '충격적인' 사건이 벌어졌기 때문이다. 인형의 집은 170달러에 달하는 것으로 알려졌다. 가디언은 이 소식을 전하며 "21세기 소비자 문제의 블랙 코미디"라는 평을 남기기도 했다.

▲ 출처=방송화면 캡처

다행히 아마존은 전액환불 조치를 발표했으나 이러한 헤프닝은 진입장벽이 낮은 음성기반 인공지능의 리스크를 잘 보여준다는 평가다.

사생활 침해에 대한 부분도 있다. 스피커 중심의 인공지능 기술력이 대두되면서 '음성'에 대한 이해관계충돌이 발생하기 때문이다. 만약 에코에게 물어볼 것이 있는 딸이 있다고 치자. 그런데 딸은 그 명령을 부모님 모르게 내리고 싶다면? 이를테면 "생리대를 사줘"라는 말을 쉽게 할 수 있을까? 극단적으로 말해 "내가 임신했는데, 아기용품을 알아봐 줘"라고 말할 수 있을까?

여기서 음성인식 인공지능 기술력이 점점 고도화의 방향성을 잡아내는 지점도 눈길을 끈다. 야후테크는 12일(현지시간) 알렉사가 사용자에게 먼저 말을 거는 기능을 개발하고 있다고 밝혔다. 수동적인 음성인식을 넘어 능동적인 음성제안인 셈이다. 일종의 솔루션 고도화다.

그 자체로 생태계 강화에는 큰 도움이 되겠지만, 과연 좋은 일이기만 할까?

지난해 뉴욕타임스는 재미있는 보도를 한 바 있다. 평범한 미국의 한 가정집에 임신부를 위한 옷이나 약을 저렴하게 구입할 수 있는 할인쿠폰이 도착했다고 한다. 그런데 문제는 해당 가정에 딸은 있지만 아이는 커녕 평범한 고등학생이었다. 아버지는 격노해 쿠폰을 보낸 대형마트에 항의를 했으나 알고보니 딸은 임신한 상태였다.

정리하자면 아버지도 몰랐던 딸의 임신 소식을 대형마트가 미리 알고 임신부 쿠폰을 보낸 셈. 어떻게 된 일일까? 대형마트의 마켓팅팀은 빅데이터를 운용하며 소비자의 구매 패턴을 면밀히 조사했고, 최근 문제의 딸이 인터넷을 통해 임신관련 물품에 관심을 보이는 것을 발견했다고 한다.

음성인식 인공지능 스피커가 수동적인 상태에서도 사생활 침해의 여지가 있다는 전제가 깔린 상태에서, 능동적으로 변하면 어떻게 되는 것일까? 알렉사와 대비해보자. 어느날 평온한 가정집에서 알렉사가 대뜸 "임신용품 세일이 시작됐습니다"라는 말을 건낸다면?

가치판단의 문제겠지만 음성인식 스피커의 발전은 사생활 침해 등 그 자체로 따져야 할 지점이 많다는 평가다. 게다가 최근에는 음성인식을 넘어 오감만족을 노리는 인공지능 플랫폼도 등장하고 있다. 실제로 KT의 기가지니는 IPTV의 강점을 바탕으로 미디어 플랫폼의 시청각적 요소까지 충실하게 잡아내고 있으며, 네이버의 클로바는 말 그대로 오감만족을 전면에 내세웠다.

▲ 출처=네이버

프로젝트 J로 연구개발이 진행되고 있는 클로바는 인간의 오감에서 모티브를 땄다. 주로 음성에 초점 맞춰져 있는 기존 인공지능 플랫폼에서 폭넓은 감각을 인지하는 것으로 확장하는 방법론이다. 실제로 인간의 오감에 해당하는 클로바 인터페이스(Clova Interface), 두뇌에 해당하는 클로바 브레인(Clova Brain)을 중심으로 삼아 디바이스 및 애플리케이션을 연결하는 클로바 인터페이스 커넥트(Clova Interface Connect), 콘텐츠 및 서비스 연결로 클로바 브레인의 기능을 확장하기 위한 클로바 익스텐션 키트(Clova Extension kit) 등으로 구성된다.

종합하자면, 인공지능은 텍스트를 넘어 인간의 다양한 생활요소에 침투하는 상황에서 음성인식 고도화에 박차를 가하고 있다. 알렉사의 능동적 음성 솔루션은 그 연장선에 있는 발전의 한 단계로 볼 수 있다. 하지만 이러한 요소들이 오감만족을 향해 나아갈 경우 '쓰임새'라는 기본적인 사용자 경험에서 제동일 걸릴 수 있다.

허브를 다수의 객체로 나눠 각각의 사생활을 보존하는 쪽으로 가야하는 것일까? 아니면 웨어러블을 통해 간편결제 등 이커머스 기능을 빅데이터의 요소로 올려 특화된 인공지능 기술력으로 생태계를 짜야 할까? 고민이 시작되는 순간이다.