▲ 웰세드 랩(WellSaid Labs)이라는 스타트업은 성우의 목소리와 인공 지능을 합성해 사람과 매우 흡사하게 들리는 합성 목소리를 만든다.   출처= CNN 캡처

[이코노믹리뷰=홍석윤 기자] 유튜브에서 본 광고였든가, 금발의 미녀 모델이 카메라 렌즈 앞에서 하얀 선글라스를 쓰고 미소를 지으며, 장난스럽게 손짓을 한다. 배경에는 힙합 음악이 흐르고, 금발 미녀는 분명한 여성의 목소리로 “패션은 변하지만 스타일은 영원하다”라고 말한다.

웰세드 랩(WellSaid Labs)이라는 광고회사 스타트업이 만든 유튜브용 데모 버전인 이 광고는 짧고 매끄럽다. 하지만 뭔가 좀 색다르다. 눈에 보이는 모델은 진짜 사람이 분명하지만, 배경 음성으로 사용된 기계음 조차도 사람 목소리처럼 들린다.

시애틀에 본사를 둔 이 회사는 성우의 목소리와 인공 지능을 합성해 사람과 매우 흡사하게 들리는 합성 목소리를 만든다. 회사는 지난 1년 동안 개발한 문자 음성 변환 소프트웨어가 어떤 다른 합성 음성보다 인간과 똑 같은 소리를 내는 오디오를 생산할 수 있다고 주장한다. 그 이유는 기계음을 만들 때, 속도, 발음, 볼륨 등 서로 다른 음성 변수를 엄격히 통제하고 있지 않기 때문이다.

웰세드 랩의 매트 호킹 최고경영자(CEO)는 CNN과의 인터뷰에서 "우리가 여기서 만드는 목소리의 최종 결과물은 표현력이 풍부하고 실제 사람 목소리와 매우 흡사하다.”고 말한다.

거실에서 음성인식 스마트 스피커 알렉사(Alexa)의 음성을 듣거나, 자동차 운전 시 방향을 말해주는 내비게이션의 음성을 듣거나, 지하철에서 안내 방송을 듣는 등, 요즘 우리 생활 주위 도처에서 컴퓨터화된 음성을 자주 듣는다. 하지만 알렉사, 시리, 구글 어시스턴트 등에서 듣는 음성은 아직 딱딱하고 다소 서툰 듯한 로봇 음성이다.

그러나 웰세드 랩은 음성 인식 스피커 시장을 타깃으로 할 생각은 없다. 호킹 CEO는 자신들이 개발한 인간의 음성과 똑 같은 기계 목소리를, 광고, 마케팅, 온라인 교육과정에 사용하기 원하는 회사들을 고객으로 삼고자 한다.  

이 회사는, 고객들이 사용할 수 있도록, 여러 종류의 실제 인간 목소리 같은 음성을 만들고 있으며, 모든 종류의 인공 목소리를 만드는 데 사용될 수 있는 각종 데이터 세트를 만들기 위해 성 우들과 협력하고 있다고 말한다.

여러분은 아마 스탁 포토(Stock Photo, 광고 등에 들어가는 이미지의 소스로 활용될 수 있는 사진)에 대해 들어본 적이 있을 것이다. 웰세드는 회사가 개발한 목소리를 스탁 보이스(Stock Voice)라는 개념으로 이해할 수 있다고 설명한다.

위에 예를 든 데모 광고에서, 이 여성의 목소리를 내기 위해 웰세드 랩은, 먼저 한 성우로 하여금 위키피디아의 기사를 읽게 하고 그것을 녹음했다. 이것으로 데이터 세트를 만들어 인공 신경망을 훈련시켰다. 인공 신경망이란 우리 뇌 속의 신경세포(neurons)의 구조를 본 따 만든 컴퓨터 시스템이다.

또 다른 온라인 데모에서는, AI가 만들어낸 목소리와 실제 성우의 목소리를 교차 반복해서 들려주면서 두 목소리가 얼마나 비슷하게 들릴 수 있는지를 보여준다. 그것은 중년 여성의 목소리였는데, 주의 깊게 들으면 약간의 차이를 발견할 수 있지만, 거의 구분할 수 없을 정도였다.

웰세드 랩은 소프트웨어가 특정 단어를 자연스럽게 강조하는 방식으로 말을 할 수 있기 때문에 특정 텍스트를 사전 가공하거나 주석을 달 필요가 없다고 말한다. 이것은 기존의 인조 음성 기술로는 하기 어려운 기술이다.

웰세드 랩의 마이클 페트로처크 최고기술책임자(CTO)는 “현재로서는 한 줄의 문자열을 만드는 데 약 4초의 시간이 걸린다"고 말했다. 이 소프트웨어는 아직 긴 문장을 전환하지는 못한다. 여러 문장을 말하는 데 사용할 수는 있지만, 예를 들어, CNN 기사 전문을 웰세드 랩의 음성으로 분석하고 말하려면 여러 조각으로 잘라야 한다.

합성 음성을 일관되게 좋게 만드는 것은 어려운 기술이다. 카네기 멜론대학교(Carnegie Mellon University)의 앨런 블랙 언어기술 교수는, 아마존의 알렉사에서 우리가 듣는 익숙한 음성은 로봇의 음성이다. 아직까지 모든 상황에서 자연스럽게 들리게 만드는 것은 매우 어렵다. 음성 합성기 (speech synthesizer)가 모든 상황에서 적절한 느낌으로 말할 수 있도록 그에 따른 적절한 양의 정보를 주는 것은 매우 어렵기 때문이다.

"우리는 아직 음성 합성기에 '87%만큼이라도 느낌을 담게 할 수 있는' 기술이 없습니다"

그는 웰세드 랩의 데모 음성을 듣고 "매우 훌륭하다"고 말했다.

하지만 만약 인공 음성이 실제 사람의 목소리와 구분할 수 없을 정도가 된다면, 듣는 사람은 자기들이 실제 사람의 말에 귀를 잘 기울이지 않는다는 사실을 알 수 있을까? 구글은 지난 2018년에 인간의 목소리를 내는 인공지능 듀플렉스(Duplex)로 샌프란시스코의 한 식당에 전화를 거는 기술을 시연했는데, 당시 구글은 이 인공지능이 자신이 누군인지를 밝히지 않아 많은 비난을 받기도 했다.

블랙 교수는, 적어도 광고에서 사용될 경우에는, 인공지능이 자신의 신분을 밝힐 필요는 없을 것이라고 말했다.

"일반적으로 대부분의 사람들은 그들이 영상이나 음성으로 보고 듣는 것이 어느 정도 가공된 것이라는 것을 비교적 잘 알고 있지요. 그들은 '반지의 제왕'을 보면서 실제 뉴질랜드에는 영화에서처럼 범고래가 그렇게 많지 않다는 것을 아는 것처럼 말입니다.”