연말을 맞아, 아니 연말을 핑계로 거의 매일 술잔을 기울이는 가운데 취재원들과의 만남에서 가장 인기있는 화두는 역시 인공지능이었습니다. 그렇게 몇 차례의 술자리를 가지니 얻는 것도 있었습니다. 첫째는 장염을 얻었고, 둘째는 인공지능과 음성 인터페이스의 오묘한 상관관계에 대한 흥미로운 '가설'이었습니다.

"인공지능이 구동되려면 가장 중요한 전제조건은? 그리고 인공지능에 기반한 음성 인터페이스의 가장 큰 적은 무엇일까?"

 

인공지능은 특정된 형태로 구현되는 것이 아니지만, 일단 전제조건은 빅데이터라는 것에 이견의 여지가 없습니다. 데이터라는 바다가 존재해야 그 안에서 물고기도 잡고 조개도 주울 수 있어요. 물론 막무가내로 잡으면 비정형 데이터만 모으는 격이니 영리하게 수집하는 기술이 필요합니다. 여기까지는 이견이 없습니다.

그렇다면 인공지능에 기반한 음성 인터페이스의 적은 무엇일까요? 표현이 이상하지만 '넘어야 할 산' 정도로 이해할 수 있습니다. 우선 인공지능의 중요한 인터페이스로 음성이 자리잡은 것은 확실합니다. 구글의 어시스턴트가 담긴 구글홈, 아마존의 알렉사가 담긴 에코와 같은 인공지능 스피커가 대세를 이루고 있기 때문입니다. 국내만 봐도 네이버의 웨이브와 카카오의 카카오미니, SK테레콤의 누구와 KT의 기가지니 등이 있습니다. 물론 음성도 인공지능 시대를 열기 위한 다양한 인터페이스의 종류 중 하나입니다만, 일단 음성 인터네이스와 인공지능의 연결고리는 더욱 강해지고 있습니다.

사설이 길었습니다. 다시 집중해서 인공지능 시대의 음성 인터페이스가 넘어야 할 산은 무엇일까요? 국내 사정만 보면 의외로 '낮은 문맹률'이라는 말이 나왔습니다.

음성 인터페이스와 낮은 문맹률의 상관관계는 무엇일까요? 공교롭게도 각각 다른 자리에서 만난 IT 전문기자와 인공지능 전문가가 마치 약속이나 한 것처럼 둘 사이의 상관관계가 중요하다고 주장했습니다.

무슨 말인가 들어보니, 국내 문맹률은 OECD 국가 중에서도 지극히 낮은 편입니다. 국제연합개발기획에 따르면 국내의 문맹률은 1% 이하라고 해요. 물론 실질 문맹률 등은 다른 이야기지만 일단 '글자를 읽는 능력'에만 집중하면 우리는 완전한 문명사회에서 살고있는 겁니다. 세종대왕님에게 감사해야 할 일이지요.

그런데 문맹률이 낮다보니 상대적으로 음성 기반의 콘텐츠 시장이 영향력을 발휘하지 못했습니다. 왜? 글을 읽을 수 있기 때문에 귀로 듣는 음성 콘텐츠 시장에 대한 관심도가 낮았기 때문입니다. 당장 오디오북 시장부터 다릅니다. 지난 6월 대한출판문화협회와 한국출판인회의가 주최한 출판 비즈니스 세미나에서 천호영 디지털사업부장은 미국의 오디오북 시장을 소개하며 지난해 기준 미국 독자의 24%가 최소 오디오북 1권을 청취했다고 합니다. 시장 규모는 21억달러에 이른다고 합니다. 특히 스마트폰 시장이 성장하며 언제 어디서나 귀로 책을 읽는 사람들이 많아졌다고 합니다. 반면에 우리는? 이제 태동하는 수준입니다.

결국 국내는 음성 콘텐츠 데이터가 한정돼 있고, 자연스럽게 이를 인터페이스로 삼는 최근의 인공지능 트렌드와 엇박자를 낸다는 게 결론입니다.

그렇다고 손을 놓고 있을 수 없는 법. 현재 국내의 많은 ICT 전자 기업들은 음성 콘텐츠를 최대한 확보해 인터페이스로 녹여내려는 시도를 하고 있습니다. 그런데 여기서 또 문제가 발생합니다. 각각의 기업들이 확보할 수 있는 콘텐츠의 스펙트럼 한계가 뚜렷하기 때문이에요. 통신사가 지금까지 수집한 음성 콘텐츠는 대부분 '민원콜'을 통한 음성 콘텐츠일 것이며, 가전회사는 가전과 관련된 음성 콘텐츠만 확보했을 가능성이 높습니다. 포털은 약간 범위가 넓겠지만 포털 플랫폼 내부의 음성 콘텐츠도 한계가 명확해요. 인공지능 음성 인터페이스 시장이 각광을 받는 현재, 삼성전자가 카카오I와 만나고 LG전자가 클로바와 손을 잡는 이유 중 하나도 여기에 있지 않을까요? 음성 콘텐츠 자체가 부족한 현재 각각의 영역이 가지고 있는 데이터를 융합하는 것도 이들의 합종연횡을 읽는 중요한 키워드가 분명합니다.

자, 이렇게 합종연횡으로 풀어가면 또 모든 문제가 해결되는가. 아닙니다. 더 중요한, 아주 핵심적인 난관이 기다리고 있습니다. 바로 일상언어와 표준어의 간극입니다. 축적된 콘텐츠의 깊이가 얇은 상태에서 각각의 기업들이 합종연횡을 통해 데이터 융합을 시도해도, 확보된 콘텐츠가 일상생활에서 원만하게 사용될 수 있는가?의 문제가 남습니다.

예를 들어보겠습니다. A라는 회사가 다른 업종의 B, C라는 회사와 연합해 콘텐츠를 확보, 인공지능 음성 인터페이스를 꾸렸습니다. 야심차게 스피커를 출시했어요. 그런데 이런. 야심차게 등장한 스피커가 고객의 말을 제대로 알아듣지 못합니다. 왜? 무료한 주말 오후 놀러갈 곳을 찾던 고객이 인공지능 스피커에게 "좋은데, 거기 뭐 놀러가기 좋은 뭐 그런데 없나?"라고 물었다고 생각하자고요. 우리가 흔히 하는 말이잖아요? 그런데 인공지능 스피커는 주어와 술어가 뒤섞인 말은 알아듣지 못합니다. 이 모범생은 표준어만 인식하기 때문입니다. 편차는 있겠지만 현존하는 모든 인공지능 스피커가 가장 많이 한 말은 "무슨 말인지 잘 알아듣지 못했어요"입니다.

이 문제는 상당히 중요하게 받아들여지고 있습니다. 지난 8월 LG전자는 자연어 처리 기술을 탑재한 인공지능 에어컨 휘센을 출시하면서  일부 사투리 인식 기능도 탑재했습니다. 계기가 재미있습니다. 한창 개발이 진행될 때  현장을 방문한 조성진 부회장이 갑자기 "니 뭐꼬?"라고 물었고, 휘센은 대답하지 못했다고 합니다. '충격'을 받은 개발팀은 인공지능 에어컨에 사투리 기능을 탑재했다고 합니다.

다만 이 역시 '일부 사투리'에 불과한데다, 최근 인공지능 스피커들도 대화의 맥락을 파악한 인식율을 자랑해도 많이 부족한 것이 사실입니다. 여기에 대한 고민이 필요해 보입니다.

▲ 자료사진. 출처=픽사베이

자, 여기까지는 고개를 끄덕이며 '그렇겠네' 생각했습니다. 그런데 갑자기 술자리에 있던 한 사람이 불쑥 '언론사도 큰일이겠네'라고 던집니다. 이건 또 무슨 말이지? 내막은 이렇습니다. 음성은 인공지능 인터페이스의 한 종류에 불과합니다. 그러나 인공지능 자체가 오감을 만족하는 생태계로 확장되는 마당에 텍스트의 기능은 서서히 떨어질 것이라는 주장이 나옵니다. 지금도 텍스트의 바다에서 헤엄치고 있는 언론의 위기가 시작될 수 있습니다.

그러나 여기서 더 큰 위기에 대비해야 한다는 주장이 나옵니다. 깜빡이도 켜지 않고 들어온 사람이 말합니다. "언론사도 자연스럽게 음성 인터페이스를 준비해야 하는데, 지금 방식으로 괜찮겠어? 딱딱한 기사 문법을 인공지능 스피커가 읽어준다고 생각해 봐. 데이터의 가치가 있겠지만 너무 고루해"

그럼 이제부터 기사도 구어체(口語體)로 써야 하나? 가만히 생각해보니 해외의 쿼츠를 비롯해 다양한 뉴미디어 플레이어들은 편안하게 정보를 제공할 수 있는 구어체 방식으로 기사를 전달합니다. 그러나 반대로 생각해 "언어, 언론의 최후보루가 허망하게 무너지면 그것도 문제가 되지 않을까?"라고 반격해봅니다. 그러자 나온 재반박.

"CBS 라디오 김현정의 뉴스쇼에 나온 박진호 서울대학교 국문학과 교수가 이렇게 말하더라. 논란의 여지는 있지만 세종대왕님도 야민정음(최근 젊은층을 중심으로 벌어지는 한글왜곡 현상)을 알았으면 좋아했을 것이라고. 우리말과 글을 파괴한다고만 볼 게 아니라 똑같은 의미, 메시지를 표현하는 방식을 더 다양하고 다채롭게 해준다는 생각으로 접근해야 해. 인공지능 음성 인터페이스 시대잖아? 시대가 변하면 언론사도 변해야지"

100% 동의하기는 어렵습니다. 언론의 내러티브와 콘텐츠가 변해야 하는 것은 사실이지만 속조 조절도 필요하기 때문입니다. 음성 인터페이스 시대에만 '올인'할 수 없는 법이고요. 그러나 많은 생각을 하게 만드는 것은 분명합니다.

[IT여담은 취재 과정에서 알게 된 소소한 현실, 그리고 생각을 모으고 정리하는 자유로운 코너입니다. 기사로 쓰기에는 미치지 못하지만 한 번은 곰곰이 생각해 볼 문제를 편안하게 풀어갑니다]

- IT에 대한 재미있는 이야기를 듣고 싶으세요? [아이티 깡패 페이스북 페이지]