[이코노믹리뷰=최진홍 기자] 인공지능 시대를 맞아 음성 인터페이스를 기반으로 하는 인공지능 스피커가 다양한 가능성을 보여주는 가운데, 최근 업계에서는 인공지능 화자 식별 기능이 각광을 받고있다. 인공지능 스피커의 경우 대부분 거실에 위치하는 가운데 가족 구성원 별 목소리를 구분해 별도의 사용자 경험을 제공하는 방식이다. 이와 관련해 다양한 가능성이 타진되는 가운데 5일 인공지능 전문기업인 마인즈랩이 세계에서 처음으로 음성 분리 기술을 구현해 이를 오픈소스로 풀어 눈길을 끈다.

화자 인식 경쟁 치열
국내 인공지능 스피커 시장이 플랫폼 다변화의 시대로 접어드는 가운데, 화자 인식 기능을 중심에 둔 기술 경쟁이 벌어지고 있다. 특정 목소리에 집중해 이에 맞는 사용자 경험을 제공하는 것이 핵심이다. 이 분야에서는 구글이 독보적이다. 이미 구글홈을 통해 화자 인식 기술을 선보이고 있다.

화자 인식을 가장 빠르게 도입한 국내 기업은 기기지니의 KT다. 지니페이가 기가지니에 탑재되며 업계의 시선이 집중된다는 평가다. 물론 인공지능 스피커의 확실한 화자 인식과는 거리가 있으나 속도 자체는 가장 빠르다. 그 기술적 강점을 인정받아 올해 MWC 2019에서 결제&핀테크 최고의 혁신(Best Mobile Innovation for Payment and Fintech)부문을 수상하기도 했다.

SK텔레콤의 누구는 하반기 화자 인식 기술을 도입한다. 최태원 SK회장은 지난달 28일 소셜밸류커넥트 2019 현장에서 "SK텔레콤의 누구에 화자 인식 기술을 빨리 개발하라고 말하고 있다"면서 "하반기 의미있는 성과가 나올 것"이라고 말하기도 했다. 웨이브의 네이버는 아직 기술을 준비하고 있다. 이봉진 네이버 클로바 개발자가 지난해 데뷰 2018에서 화자 인식 기술을 개발하고 있다고 밝혔으나 아직은 가시화되지 않았다. 카카오는 지난해 10월 카카오미니에 보이스프로필 베타 서비스를 시작한 바 있다.

▲ 인공지능으로 음성이 분리되는 장면. 출처=마인즈랩

화자 인식 넘어...떼창도 구분?
화자 인식은 인공지능 스피커의 대중화를 앞당길 중요한 키워드다. 사용자 경험의 개인화를 통해 더욱 치밀한 인공지능 스피커 작동이 가능하기 때문이다.

이 지점에서 마인즈랩의 기술력에 집중할 필요가 있다. 일반적인 화자 인식을 넘어, 다수의 사람이 동시에 말할 때 이를 구분하는 음성 분리 기술에 구현했다고 밝혔기 때문이다. 음성 분리 및 필터 기술은 토론회나 회의에서처럼 다수의 화자가 겹쳐서 동시에 발화하는 음성이 있을 때 화자별로 음성을 각각 분리할 수 있는 딥러닝 기술로, 현존하는 가장 우수한 기술로 평가받는다.

구글도 이와 관련해 논문을 공개하기는 했으나, 실제 기술 구현에 성공한 것은 마인즈랩이 처음이라는 설명이다. 당장 회의록 자동 작성∙전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수 있을 전망이다.

기술적 한계로 지금까지는 시도하지 못했던 다양한 형태의 음성인식 솔루션을 조만간 마련하는 것도 가능할 것으로 내다보고 있다. 마인즈랩의 성과가 공개된 후 구글의 관련 논문도 업데이트됐다.

마인즈랩의 시도는 상당한 의미가 있다는 평가다. 아직 국내 기업 기준으로 보면 화자 인식도 제대로 이뤄지지 않았다. 그런데 마인즈랩의 기술은 단순 화자 인식을 넘어 다수의 사람들이 동시에 말하는 대목을 걸러내어 이를 명확하게 분리했다는 것이 새롭다. 마인즈랩 관계자는 "우리의 인공지능 기술을 통해 지난 대선 토론 당시 여러명의 후보가 동시에 말하는 장면에 적용한 바 있다"면서 "각 후보자들이 동시에 이야기를 했으나 정확한 음성 분리에 성공했다"고 말했다.

정확도는 기존 인공지능 스피커 음성 인식률과 비슷하다는 설명이다. 지금은 화자가 3명 수준일 때 인식이 가능하지만 추후 그 이상도 가능할 것이라는 말도 부연했다. 마인즈랩의 브레인팀을 이끌고 있는 최홍섭 상무는 "현재 공공과 민간 분야 모두에서 회의록 자동 작성에 대한 기술 수요가 높은 상황인데 이에 빠르게 대처할 수 있게 된 것은 물론 보다 고도화된 음성인식 서비스로 한발짝 나아갈 수 있는 획기적인 R&D 성과로 보고 있다”고 말했다. 마인즈랩의 기술은 오픈소스로 풀렸기 때문에 쉽게 확인이 가능하다.