<보이스 캐처> 조셉 터로우 지음, 정혜윤 옮김, 미래의창 펴냄.

이 책은 호러물은 아니지만 섬뜩한 느낌을 준다. 거대 테크 기업들은 전 세계 소비자들의 목소리를 수집-분석하여 초개인화 시대를 선점하려고 전력 투구하고 있다. 그런데, 아마존과 구글 등 거대 테크 기업들이 구상하는 ‘음성 AI 산업’의 미래는 이런 모습이다.

“구글은 사용자의 동작, 표정, 신체 특징, 몸짓 언어 뿐 아니라 사용자가 구사한 단어, 목소리 패턴(속도, 크기, 고조, 발음, 강약) 등에 담긴 특징들을 분석하여 사용자의 감정 상태를 추론한다. 만일 어떤 사용자가 어떤 물건이나 서비스에 관한 스토리를 듣고 흥분한다면, 구글은 사용자의 감정 반응을 분석하여 ‘그 순간에’ 사용자에게 적합한 상품 정보를 제공한다.”

검색하거나 문의하지도 않았는데 척척 상품을 소개해준다니 편리하다고 느낄 수 있겠다. 하지만 한편으론 수많은 기업 고객센터나 홈 네트워크에 남긴 목소리가 생체 정보로 둔갑하여 기업들이 우리 속마음까지 간파할 수 있다는 사실에 두렵기도 할 것이다.

거대 테크 기업들은 이미 자사 제품들에 음성인식을 전략적으로 도입했다. 앞으로는 기기로 하는 검색의 절반 이상이 음성으로 이뤄질 것이라고 한다.

저자는 향후 우리의 목소리로 구현될 음성 AI 산업이 어떻게 펼쳐질지 예측하면서 음성 AI 산업이 내포한 보안과 프라이버시 문제를 짚어본다.

◇ 새 시대의 비즈니스 생태계, 음성 AI 산업

우리는 음성 AI 산업의 비즈니스 생태계 속에 살고 있다.

지금 이 순간에도, 수억 명의 사람이 음성 비서를 사용하고 있으며 그들의 음성 데이터들이 무수히 축적되고 있다. 애플의 시리에 오늘 날씨를 묻는 것은 어색한 일이 아니다.

음성 비서들은 ‘스마트 기기’로 불리는 AI 스피커, 스마트폰, 자동차 오디오 시스템 등을 통해 임무를 수행한다.

주요 음성 비서로는 아마존의 알렉사, 구글의 구글 어시스턴트, 애플의 시리가 있다. 중국은 바이두의 AI 운영체제 듀얼 OS와 알리바바의 티몰 지니를 주로 사용한다.

국내에서도 삼성의 빅스비, SK텔레콤 음성 비서 누구(NUGU)가 각종 기기에 적극 활용되고 있다. KT는 음성인식 기기인 기가지니에서 아마존의 알렉사를 이용할 수 있게 했다.

음성인식 산업은 AI 스피커, 자동차 정보 시스템, 고객 센터, 온도 조절기, 경보 장치 등의 ‘홈 네트워크(connected-home)’ 기기 같은 수단과 깊이 관련되어 있다. 이 기기들은 우리가 어떤 말을 하면 음성 비서가 만들어낸 분석 공식에 따라 정보를 읽어낸다.

오늘날 구글 어시스턴트는 10억 개 이상의 기기에서 활용되고 있는데 대부분이 스마트폰과 구글 홈 제품군이다. 아마존은 알렉사가 수억 개의 기기에 연결돼 있다고 주장한다.

◇ “사용자를 무감각하게”…음성 AI 산업의 네 가지 전략

음성인식 기기에 말하고 적절한 대답을 기대하는 일은 수십억 인구에게 ‘평범한 경험’이 돼 버린 지 오래다. 아마존과 구글이 주도하는 음성 AI 산업은 이런 습관을 부추기기 위한 전략을 구사하면서 상호 협력하고 있다.

음성인식 산업의 틀을 이루는 전략은 네 가지다. 첫 번째 전략은 21세기 시장의 상당 부분을 이끌어가는 ‘개인화의 소용돌이(spiral of personalization)’다.

두 번째 전략인 ‘길들이기식 감시(seductive surveillance)’는 사람들이 기기가 가진 매력을 과대평가하고 꺼림직한 기능은 가볍게 무시하게 하고, 이들을 기업이 제공하는 기술로 끌어들인다.

세 번째 전략인 ‘습관화(habituation)’는 기업이 제공하는 기술을 사람들이 꾸준히 사용하도록 한다. 네 번째 전략은 ‘체념(resignation)’으로, 사람들이 디지털 감시가 찜찜하긴 하지만 도저히 피할 수는 없다고 믿게 해서 신기술을 계속 사용하게 만든다.

◇ 음성 비서에 ‘성격’ 부여…사용자 비위 맞춰

음성인식 기기는 사용자 비위를 맞춰야 한다. 이를 위해 기업들의 핵심 전략은 음성 비서에 성격을 부여하는 일이었다.

강력한 휴머노이드-인간관계로 우정과 신뢰를 쌓으면 사람들이 음성 비서가 은밀하게 사용하는 데이터에 대해 의문을 덜 갖게 될 것이다.

거대 테크 기업들은 음성 비서에 사람 마음을 끄는 인격을 부여한다. 그 다음엔 음성 비서에 사용자 데이터를 관리할 능력을 부여하고 사용자가 원하는 일을 되도록 막힘 없이 성공적으로 돕게 한다.

마지막으로는 음성 비서를 기기에 장착하여, 업계가 ‘마찰 없는 혜택’이라 부르는 미끼로 사용자를 유인하고 될 수 있으면 많은 곳에서 다양한 음성 데이터를 거두어들이게 한다.

사용자들은 거대 테크 기업들이 제공하는 기술에 익숙해져 보안과 프라이버시가 찜찜하지만, 음성 AI 산업은 도저히 피할 수 없는 현실이라고 믿을 수밖에 없게 되는 ‘체념 정서’에 이르게 된다.

실제로, 요즘 소비자들은 음성 비서가 완전히 비언어적 신호를 바탕으로 특정 브랜드를 추천하도록 스스로 데이터를 제공한다는 사실을 어느 정도 묵인하고 있다.

이에 따라 소비자는 점점 더 자신의 개인정보를 넘겨주고 있다. 전문가들은 개인화에 더 큰 이점이 있을 때 사람들은 일부 개인정보를 마음 편히 포기한다고 지적한다.

◇ 음성은 신원-나이-질병-성격 담은 ‘생체정보’다

음성인식 연구자들에 의하면, 음성으로 그 사람의 신원, 체형, 나이, 계층, 특정 질병, 특정 감정 및 성격을 식별해낼 수 있다. 때와 장소에 어울리는 음성과 말로 사람들을 의도된 대로 설득할 수도 있다.

아마존 앱의 특허 설명을 보면, 오디오 데이터는 사용자가 실제로 한 말의 내용은 물론이고 말의 속도 및 어조를 분석해 “사용자의 기분을 더욱 정확히 알려준다”라고 적혀 있다.

예를 들어, 사용자가 “난 괜찮아”라고 말할 경우 강한 어조와 빠른 속도로 말할 때가 힘없고 느린 어투로 말할 때보다 긍정적인 의미로 해석된다.

이 같은 아마존의 음성인식 기법을 활용하여 판매 직원은 고객이 지난번에 점포에 들렀을 때 가장 긍정적인 목소리 반응을 보였던 옷과 유사한 것을 권할 수 있다.

자동차 제조사들은 차주의 습관 및 관심을 분석해 그들이 다음 모델을 사게 하는 제일 나은 방법을 알아낼 수 있다.

◇ 음성 프로파일링, 자유에 큰 영향 미칠 수 있다

음성 프로파일링은 새로운 초개인화 시대를 향한 관문이다. 기업들은 현재 음성 프로파일링을 향해 빠르게 움직이는 것에 신중한 상태다.

하지만 그들에겐 기술이 있고 특허도 있다. 이미 발언 및 음성인식을 활용하여 신체 정보를 바탕으로 사람을 다르게 취급하는 미래에 한 발짝 다가간 기업도 있다.

저자는 음성 비서가 확산됨에 따라, 이런 활동이 앞으로 더 빨라질 것으로 예상한다. 과거에 소비자 마케팅을 위해 개발된 전략이 결코 그 영역에만 머물지 않았기 때문이다.

앞으로 목격하게 되겠지만 현재 선거 운동, 국경 경비, 심지어 교도소 통제에서도 음성 프로파일링 사용을 탐색 중이다. 이 사실은 앞으로 음성인식이 자유(自由)에 생각보다 더 크고 광범위하게 영향을 끼칠 수 있음을 시사한다.