인공지능이 4차 산업혁명의 핵심이라는 점은 이견의 여지가 없다. 하지만 스피커가 인공지능을 담아내는 유일한 그릇이라는 점에는 많은 전문가가 동의하지 않는다. 오히려 ‘원 오브 뎀’에 가깝고 일종의 무기 중 하나로 여겨진다. 카카오 핵심 인사는 “PC시대에서 모바일 시대가 열리며 많은 사람들이 스마트폰 사용자 경험만 보고 있지만, PC가 사라진 것은 아니다”며 “다양한 선택지가 존재한다는 수준에서 이를 이해하고 대비해야 한다”고 강조했다.

▲ 출처=픽사베이

추구하는 방향성은 달라도, 원하는 그림은 하나

각 기업들이 인공지능 스피커로 노리는 ‘큰 그림’을 제대로 봐야 한다는 주장이 나온다. 먼저 아마존 에코. 인공지능 알렉사를 중심으로 생태계 전략을 짜는 기본적인 방향은 동일하지만 아마존에 에코를 통해 원하는 것은 ‘완벽한 수준의 가두리 양식장’이다.

지금까지 아마존은 에코의 출시 전에도 파이어 스마트폰 등 다양한 하드웨어 라인업을 출시하며 오프라인 거점을 확보하려고 노력했다. 하지만 스마트폰과 태블릿 시장에서는 모두 실패했으며, 그 과정에서 많은 고민의 끝에 2014년 ‘대시’라는 버튼형 사물인터넷 제품을 출시했다. 세탁기와 냉장고 등 일상적인 생활용품에 부착하는 버튼형 제품인 대시는 습관적 구매를 유도하는 전략으로 무장했다. 세제가 떨어지면 버튼을 눌러 전자동으로 부족분을 채우는 방식이며, 이는 아마존의 가두리 양식장 생태계 구축을 극적으로 보여준다는 평가다. 알렉사도 이러한 측면에서 아마존 전자상거래 시장의 큰 그림을 위한 일종의 수단이라는 평가다.

홀로렌즈를 통해 혼합현실을 매개로 하는 미래 컴퓨팅 사용자 경험을 꿈꾸는 마이크로소프트는 인보크를 통해 플랫폼 그 자체를 노리는 분위기다. 코타나라는 인공지능을 철저하게 개인비서로 포지셔닝한 상태에서 윈도우 시절부터 체화된 독점적 플랫폼 전략을 구사하고 있다는 뜻이다. 성공 여부는 예단할 수 없지만 마이크로소프트다운 발상이다.

구글홈의 구글과 홈팟의 애플 등은 인공지능 스피커 시장에서 ICT 기업다운 정체성을 잘 보여주고 있다는 평가다. 이들은 하드웨어 수직계열화 등을 통해 보여주는 일종의 자사 중심의 강력한 생태계를 구축해 모바일 시대의 패권을 온전히 초연결 시대의 지배력으로 옮기는 것에 집중하고 있다. 안드로이드와 iOS로 대표되는 모바일 패권이 ‘얼마나 많이 초연결 시대로 옮겨갈 수 있는가’가 관건이다.

결국 기업 자체가 전자상거래 기업이냐, ICT 플랫폼 전문 기업이냐 등에 따라 인공지능 스피커 시장에서 보여주는 행보 자체가 다르다. 하지만 이들이 궁극적으로 추구하는 것은 동일하다. 바로 스마트홈. 당신의 집이다.

구글의 구글홈, 아마존의 에코, 애플의 홈팟 등 현존하는 모든 인공지능 스피커는 모두 집에 비치하는 것을 전제로 한다. 당연히 거주공간의 초연결 생태계를 조성하는 각자의 로드맵에서 큰 역할을 차지한다는 뜻이다. 인공지능 하나라면 플랫폼을 생각하지 않고 다양한 변신을 거듭할 수 있지만, 탁상용 스피커를 손에 들고 외출하는 사람은 없다. 결국 인공지능 스피커 자체는 온전히 집, 더 자세히는 거실이나 방에 위치해 각 가전제품과 연결되어 외부 서비스를 받아들이는 순간 당위성을 가진다. 모든 정보와 피드백이 24시간 연결되어 있다면, 그 중심에 인공지능을 비서로 설정하는 방식으로 음성인식을 최대한 활용할 수 있는 여지가 있다.

이는 제조사도 마찬가지다. 삼성전자의 경우 타이젠을 심장으로 삼아 인공지능 빅스비로 확인된 경쟁력을 자사의 가전기기에 확실하게 뿌리는 전략을 추구하고 있다. 아직 인공지능 스피커 출시에 나서지 않은 상태지만 삼성전자도 조만간 인공지능 스피커를 출시할 것이라는 루머는 여전히 나오고 있다.

여기에는 현실적인 고려사항도 있다. 모바일 시대의 대표작인 스마트폰은 지금 긴 호흡으로 볼 때 역성장이 유력하다. 삼성전자 및 애플 등이 지금 이 순간에도 프리미엄 스마트폰을 중심으로 시장을 견인하고 있으나 스마트폰의 생명이 끝을 향해 달려가고 있다는 것은 분명한 사실이다. 그 중심에서 플랫폼 전략을 연속성으로 추구하려면 당연히 오프라인 그릇이 필요한 법이다.

▲ 출처=픽사베이

인터페이스 혁명에 답이 있다

인공지능이 반드시 필요한 시대가 도래한 상태에서 최초의 방향성은 스피커로 담겨 스마트홈을 노리는 쪽으로 가닥이 잡혔다. 다만 스피커, 혹은 음성인식은 하나의 선택지에 불과하다. 이는 인터페이스적 측면에서 이해되어야 한다.

지난해 11월 삼성전자는 미국의 인공지능 스타트업인 비브랩스를 인수하며 관련 기자회견을 열었다. 비브랩스는 독창적인 개방형 인공지능 플랫폼을 개발한 기업으로 평가받고 있으며, 미국 캘리포니아 산호세에 있다. 인공지능 전문가인 다그 키틀로스(Dag Kittlaus), 아담 체이어(Adam Cheyer), 크리스 브링험(Chris Brigham)에 의해 2012년에 설립됐다.

비브의 인공지능 플랫폼은 외부 서비스 제공자들이 자유롭게 참여해 각자의 서비스를 자연어 기반의 인공지능 인터페이스에 연결할 수 있는 특징을 가지고 있다. 단순히 인공지능 서비스를 제공하는 수준이 아니라 무수한 연결의 방정식을 구현할 수 있다는 뜻이다. 이를 통해 모든 기기와 서비스가 하나로 연결되는 인공지능 기반의 개방형 생태계(Open Ecosystem) 조성이 가능하다는 것이 삼성전자의 설명이다.

흥미로운 지점은 이를 활용하는 삼성전자의 방향성이다. 갤럭시 S8의 빅스비를 위해 비브랩스를 인수하지 않았다는 점을 명확히 했다. 당시 비브의 CEO 다그 키틀로스와 CTO인 아담 체이어와 함께 무대에 나타난 삼성전자 무선사업부 개발1실장 이인종 부사장은 인터페이스의 변화를 단언해 눈길을 끌었다.

일단 이인종 부사장은 “삼성과 비브는 지금까지 없었던 인공지능 플랫폼을 형성하기 위해 함께 하고 있다”며 “이 플랫폼에서는 제3의 개발자가 자신들의 서비스 역량을 추가함으로써 그들의 서비스를 고객들에게 더 광범위하게 제공할 수 있다”고 설명했다. 여기까지는 예상 가능한 설명이다. 그러나 기자회견 말미 이인종 부사장은 흐릿하지만 중요한 단서를 던졌다. 이인종 부사장은 “사람들이 인공지능 이야기를 하면 모두 알파고를 생각한다. 그러나 우리는 실제 생활에서 정보를 모으고 인간과 같은 수준의 생각을 통해, 유저에게 가치 있는 정보를 전달하는 것이 진정한 인공지능이라고 생각한다”며 운을 떼었다.

이어 그는 인터페이스라는 말을 꺼냈다. 이인종 부사장은 “우리의 새로운 플랫폼은 이 세상에 존재하지 않았던 인공지능 기능을 겸비한 새로운 인터페이스일 것이며 PC에서 스마트폰, 인공지능을 아우르는 새로운 생태계를 만들어 나갈 것이다”고 전했다.

▲ 출처=이코노믹리뷰 DB.

이인종 부사장의 인터페이스 변화는 근원적인 혁신을 말한다. 기계와 인간의 피드백 역사에서 대부분의 인터페이스는 당연히 텍스트 중심이었으나 이제 음성으로 변할 것이며, 이는 또 하나의 중요한 선택지가 된다는 주장이다. 인공지능 스피커가 하나의 수단이면서 콘텐츠의 이동을 끌어낼 수 있는 중요한 매개체가 된다는 뜻이다.

최지혜 정보통신정책연구원 ICT 통계정보연구실 연구원은 “아직까지 스마트홈이나 홈 오토메이션은 컴퓨터나 스마트폰과 같이 터치나 텍스트 입력을 필요로 하며 출력 역시 GUI(컴퓨터그래픽사용자인터페이스) 형태의 통합 컨트롤 시스템으로 제공되고 있다”며 “그러나 음성인식 인터페이스를 활용할 경우 직접 접촉하지 않고도 사물인터넷 기기나 서비스를 제어할 수 있을 뿐만 아니라 조작방식을 학습할 필요가 없기 때문에 편의성 측면에서 터치나 텍스트 기반보다 우수하다”고 강조했다.

[왜 인공지능과 스피커가 만났을까?]

카카오 이석영 AI TF장

현재의 인공지능 기술에서 ‘음성 인터페이스’는 가장 핵심적인 기능이며 스피커는 가장 적절하게 인공지능 기술을 담을 수 있는 기기라고 보고 있다. 기존에는 음악을 들으려면 책상 위에 있는 스마트폰을 가지고 와서 잠금해제를 하고 앱을 열며 원하는 음악을 검색해야 했다. 하지만 스마트 스피커가 있다면 한 번의 명령으로 쉽게 음악을 들을 수 있다. 기존에 불편했던 것들이 음성 인터페이스로 인해 진입장벽이 낮아진다는 뜻이다. 생활 전반에 걸쳐 큰 변화가 일어나게 될 거라고 생각한다. 아울러 기존의 인터페이스는 터치로 대변되는데, 요리를 한다거나 운전을 하는 상황에서 ‘음성 인터페이스’는 편리를 넘어, 전에는 불가능하던 새로운 행동과 경험을 제공할 수 있다.

 

KT 융합기술원 AI 서비스개발 프로젝트 권순종 팀장

인공지능이 스피커와 연결된 이유는 단순하게 생각하면 된다. 이렇게 가정해보자. “당신은 누군가의 지능을 어떻게 확인할 수 있나요?”라는 질문에 대한 답을 생각해보라. 맞다. 우리는 다른 것이 아닌 ‘말’이라는 인터페이스를 통해 그 사람의 지능을 확인할 수 있다. 그렇다면 서비스의 지능을 다른 사람에게 보여주려고 하는데, 어떻게 보여줘야 할까? 그렇다. 특정 서비스의 지능을 보여주기 위해 ‘말’이 필요하고, 이 ‘말’을 전달하는 것이 바로 스피커다. 여기에서 인공지능과 스피커의 만남이 당위성을 얻는다.

 

SK텔레콤 누구(NUGU) 팀

인공지능을 처음 접하는 상황을 상상할 필요가 있다. 이용자들에게는 인간의 음성언어를 통한 커뮤니케이션이 정서적 진입장벽을 낮춰주는 효과가 있으며 현 시대의 자연어 처리 기술이 사용자의 말을 축적해 빅데이터로 활용할 수 있는 단계에 이르렀기 때문에 인공지능과 스피커가 만났다고 생각한다. 인공지능 서비스는 앞으로 다양한 디바이스에 맞는 형태로 적용되며 우리 삶 속으로 더 파고들게 될 것이다. 여기에 데이터 중요도가 있다. 사실 음성인식 인공지능 플랫폼의 핵심 경쟁력은 사용자들로부터 확보한 데이터다. 인공지능 플랫폼이 인식률과 명령 수행률을 높이기 위해서는 누구와 같은 디바이스를 통해 음성인식 비서는 물론 가전 제어, 커머스 등의 기능을 활용하도록 하면서 방대한 데이터를 축적하는 과정은 사업적으로 매우 중요하다.