[이코노믹리뷰=김진후 기자] ‘다크 데이터’를 빅데이터로 만들기 위해 국내외 기업들은 이미 오래 전에 다크 데이터 발굴, 채굴, 정형화하는 등 많은 노력을 기울이고 있다. 게임업체와 신용카드 회사는 물론 지방자치단체들도 다크 데이터의 중요성을 알고 많은 자금을 투입하는 중이다. 그러나 우리나라의 다크 데이터 활용 노력은 분야별로 다르긴 하지만 선진국에 비하면 뒤처져 있다고 하는 게 온당하다.
글로벌 기업들은 소프트웨어 업체들이 개발한 다크 데이터 분석툴을 활용하기도 하지만 아예 그런 툴을 개발한 업체를 인수하기도 한다. 스타트업 투자 분석업체 ‘CB인사이츠’에 따르면 글로벌 기업의 AI 스타트업 인수 건은 2013년 22건에서 2017년 115건으로 5배 늘어났다. 가장 많은 곳을 인수한 기업은 구글로 14개 기업을 인수해 마이크로소프트와 아마존의 약 2배를 기록했다. 애플은 13개 기업을 인수해 뒤를 이었다. 국내 기업·지자체도 눈을 뜨고 AI 스타트업과 활발히 협력하고 있지만, 자체 개발은 아직 먼 이야기다.
글로벌 기업들의 ‘다크 데이터 분석 AI’ 쟁탈전
애플은 지난 5월 비정형 데이터 처리 방법을 연구하는 영국 기업 ‘래티스데이터’(Rattice Data)를 인수했다. 래티스데이터는 다크 데이터를 분석해 빅데이터로 변환하는 기술 즉 ‘딥다이브’를 보유한 기업이다. IT 전문 매체 <테크크런치>는 래티스데이터가 상용화한 딥다이브를 인신매매 등 국제 범죄수사, 의학연구 등 다방면으로 활용할 수 있을 것으로 내다보고 있다.
IT웹로그 엔가젯(Engadget)은 “애플이 시리의 능력향상을 위해 래티스데이터를 인수했다”고 예상했다. 실제로 시리가 래티스데이터의 기술로 수행할 수 있는 명령이 많아진다면, ‘아마존 에코’와 ‘구글 홈’ 등 다른 인공 지능 음성 스피커 업체 사이에서 경쟁력이 높아질 것이란 분석이 나온다.
아마존은 지난해 1월 미국 샌디에이고의 AI스타트업 회사 ‘하비스트’(Harvest)를 인수했다. 하비스트는 컴퓨터 학습 기술을 사용한 사이버 보안을 전문으로 한다. 주요 지적 재산에 대한 사용자 행동을 분석해 데이터 도난이 없도록 돕는다. AI 기술이 데이터 유출과 의심스러운 무단 접근을 차단하는 것이다. 이 기술로 자료를 식별하고 보호한다. 또한 위협 감지와 헌팅 기술 보유사 ‘스쿼럴’도 아마존의 인수 대상에 올랐다. 스쿼럴은 과거 국가안보국(NSA)과 협력한 것으로 알려졌다.
전 세계 1위 음악 스트리밍 업체인 ‘스포티파이’(Spotify)는 2017년 5월 프랑스 파리에 있는 AI 신생 벤처인 닐랜드(Niland)를 인수했다. 닐랜드의 기술은 차별화된 AI 알고리즘 방식이 음악을 추천해주는 내용이다. 스포티파이는 닐랜드를 인수하면서 이런 음악추천 방식이 적용된 ‘인간 큐레이터’ 기능을 자사의 음원제공 서비스에 탑재했다. 닐랜드가 보유한 AI 기술은 블로그와 같은 공개 정보를 기반으로 아티스트, 앨범, 노래 등을 추천해준다.
한 발 앞선 해외 ‘다크 데이터’ 시장
IBM은 다크 데이터 시장에서 가장 활발한 활동을 이어가고 있다. 다루는 범위도 텍스트형 데이터에 국한되지 않는다. 이미 2014년에 한국IBM은 다크 데이터 분석 플랫폼인 ‘ICA’의 한국어 버전을 출시했다. IBM의 행보 중 가장 두드러진 것은 ‘왓슨(Watson)’인데 이는 굳이 설명이 필요 없을 정도로 널리 알려져 있다.
한국IBM 관계자는 “왓슨은 클라우드에 축적된 다크 데이터까지 분석해, ‘인지’에 가까운 이해·추론·학습하는 능력을 가졌다”고 설명했다. 퀴즈쇼에서 인간과 대결하기 위해 개발된 왓슨은 실제로 2011년 인간 상대 퀴즈시합을 2회나 승리하면서 그 가능성을 입증했다. IBM은 이 거대한 데이터 처리 시스템을 데이터 분석, 고객 서비스, 마케팅 등을 혁신하는 데 쓰기로 하고, 소프트웨어 개발자들에게 API를 제공했다. 자연어 분석과 대화, 텍스트 기반 감정 추론 등의 기능이 왓슨의 주요 API다.
이런 뛰어난 컴퓨팅 능력을 토대로 왓슨은 다방면의 사업에 활용되고 있다. 개발자와 협력사들은 헬스케어, 금융, 보험, 법률, 유통분야에 왓슨을 적용 중이다. 스포츠 분야에선 선수의 움직임, 관중의 함성을 분석해 하이라이트 영상을 제작하는 서비스도 나왔다.
한국IBM 관계자는 “건강 시장이 괄목할 만한 시장을 이루고 있다. IBM은 2015년 개인 의료 서비스 혁신을 위해 왓슨 기반의 대규모 헬스 클라우드 플랫폼을 출범했다”면서 “의사, 연구자, 보험사와 관련 기업들은 이 클라우드로 매일같이 생성되는 방대한 양의 건강 데이터(임상, 연구 등)를 모니터링하면서 각자의 솔루션을 얻고 있다”고 덧붙였다. 의료기기 업체 ‘메드트로닉’이 왓슨을 바탕으로 맞춤형 당뇨 관리 솔루션을 개발 중이고, 전미 암 학회(ACS)는 암의 종류와 단계를 진료하는 AI 자문위원을 제작했다. 국내 병원 몇 곳도 서버에 왓슨을 설치했다. 최신 연구 모니터링, 진료로 최적의 치료법을 제시하는 등 의료진의 훌륭한 조력자로 자리매김하고 있다는 평이 들려온다. 인천의 가천대 길병원에선 2016년 12월부터 1년 동안 500건이 넘는 진료를 보았고, 대구의 계명대 동산병원에서는 부인암과 유방암 환자를 최다 진료하는 등의 성과를 보이고 있다. 특히 지역종합병원이 왓슨을 수단으로 서울의 빅 5 병원을 견제 가능하다는 점에서 그 의미는 작지 않다.
미국 빅데이터 분석 전문업체 ‘팍사타’도 일찍이 다크 데이터 분석에 뛰어들었다. 이미 팍사타는 IT컨설팅업체 잘레시아와 합작해 분석 플랫폼 ‘데이터 프렙’으로 한국 시장에 진출했다. ‘데이터 프렙’이란 AI 기반 솔루 션이 다크 데이터를 추출하고 전처리(Preparation)해주는 기술이다. 야후, 씨티그룹, JP모건 등이 팍사타 솔루션을 도입해 사용 중이다. 확실한 전처리와 분석으로 잠들어 있는 다크 데이터의 실질 활용률을 높이고 있다.
김병식 잘레시아 부사장은 “다크 데이터 활용도가 높아지면서 내부 데이터를 비옥화할 수 있게 됐다”면서 “이를 360도에 가깝게 분석해 서비스, 품질 개선과 마케팅에 활용하는 등 경제 효과를 불러왔다”고 평했다. 일본 기업도 강세를 보이고 있다. 히타치는 특정한 냄새에 반응하는 ‘선충’을 활용, 소변으로 조기에 암을 검진 할 수 있는 툴을 내년 상용화할 계획이다. 후지쓰는 체조선수의 움직임을 측정하는 AI 심판 ‘진라이’를 개발 중이다.
발 걸친 국내 기업… 자체 개발은 아직
국내 기업들도 다크 데이터 활용을 위해 발 빠른 모습을 보이고 있다. 다만 직접 분석툴을 개발하는 것보다는, 협업과 외부 기술 도입으로 기존의 서비스를 보완하는 데 초점을 맞춘 모습이다. 이 때문에 눈에 보이는 새로운 서비스보다는 눈에 보이지 않는 영역에서 정책의 완결성을 추구하고 있다. 그렇기에 개발역량에서 반 보 뒤처져 있다는 평가가 나온다.
게임업체인 엔씨소프트는 2011년 하둡을 도입해 게임 개발에 활용하고 있다. NHN도 마찬가지다. NHN는 최근 하둡 환경을 개선하고 데이터 분석을 위한 각종 툴과의 인터페이스를 개발, 운용자 채용에 나섰다.
롯데카드는 신용카드 업계 최초로 고객 대응 챗봇 ‘로카’를 운영하고 있다. 로카는 카드 신청, 즉시 결제 등의 서비스가 24시간 가능하다. 기존의 챗봇보다 실제 상담원에 가깝게 고안된 인공지능 상담원이다. 이런 기술 구현은 데이터 분석 전문업체 SAS의 AI 기반 텍스트 분석 기술을 들여온 덕분이다. SAS 역시 팍사타와 마찬 가지로 단순반복 작업을 자동화해주는 솔루션을 개발했다. ‘SAS 비주얼 텍스트 애널리틱스’는 자연어처리 (NLP), 머신러닝, 언어학 규칙을 활용해 만든 AI를 시각화해서 보여준다. 다크 데이터가 가진 패턴을 추출해, 숨어 있는 인사이트를 이끌어낸다는 전략이다.
LG CNS의 빅데이터 플랜은 보험회사, 신용카드회사 등의 콜센터가 수집한 목소리를 근간으로 한다. 소비자의 목소리를 데이터로 축적하고, 기록된 텍스트형 대화 데이터도 함께 활용한다. LG CNS는 외부 오픈소스 엔진을 커스터마이징해 사용 중이다. LG CNS 관계자는 전화통화에서 “준비단계에 있는 사업이 있어 구체적으로 말할 순 없지만, LG도 데이터 사이언스 자구력을 키워나갈 장기 계획이 있다”고 밝혔다.
LG와 롯데를 위시한 대기업들이 분석 소프트웨어 개발에 직접 뛰어들지 않는 것은 나름의 이유가 있다. 척박한 환경의 국내 소프트웨어 시장에서 당장 글로벌 거인과 맞서기엔 리스크가 크기 때문으로 풀이된다. 해외 글로벌 기업은 인수할 자금과 연구에 역량을 투입할 여유가 있지만, 국내의 생태계는 그렇지 못하다. 대신 국내 대기업들은 이를 타개할 방안으로 ‘투 트랙’ 전략을 사용한다. 오픈소스를 사용하는 글로벌 기업, 서드파티 업체들과의 협력으로 단독기술을 배양할 역량도 기르는 동시에, 국내 데이터 가치시장의 파이 자체를 키워나가는 게 그것이다. 선진 기술의 노하우도 일부 얻으면서 호기를 노리고 있는지도 모른다.
다크 데이터는 제2금융권과 대부업 분야에서도 각광받고 있다. 빅데이터 마케팅 솔루션 업체 ‘리비’는 다크 데이터를 통해 그동안 저축은행과 대부업계가 필요로 한 신용평가 지표를 마련할 수 있게 됐다. 김성환 리비 대표, 데일리인텔리전스 인공지능본부장은 “기존의 포럼, 기업신용평가 보고서, 재무제표 등을 분석하면서 기본 형식과 패턴을 파악해 요긴하게 사용 중”이라고 말했다.
다크 데이터 활용으로 생긴 경제효과를 두고 김 대표는 “통장거래 내역을 보면 국민연금 납부 내역, 급여 입출금, 보험금 수령 등을 파악할 수 있다. 데이터 분석이 발전해서 신용평가에도 풍부한 소스를 활용할 수 있게 됐다”고 덧붙였다. 덕분에 자료 부족으로 최고 금리를 적용해온 이들 제2은행권은 중금리 대출자 모형도 제시하고 있다. IT물류 스타트업 메쉬코리아는 배송 과정의 모든 데이터를 분석해서 자사의 배송 서비스인 ‘부릉 시스템’을 고도화하고 있다. 다크 데이터 분석을 활용해 배송 과정에서 발생하는 라이더의 대기 시간, 상점 위치와 엘리베이터 설치 유무, 주차 공간 등 모든 경우의 수를 기록한다. 이 데이터로 솔루션을 도출해 라이더의 사용 환경을 개선하는 데 쓰고 있다. 배송 현장에서 쌓인 데이터는 ‘주문 추천’ 기능처럼 배송 효율을 극대화 하는 데 다시 쓰인다. 기업들의 알뜰한 데이터라는 니즈를 살린 셈이다.
국내 지방자치단체도 사회경제 비용을 절감하고 공공서비스를 더 효율성 있게 활용할 수 있도록 빅데이터 정책을 운용하고 있다. 이미 여러 도시에서 성과를 보는 중이다. 서울시는 현재 스마트시티 정책을 수립하고 데이터를 사용하고 있다. 다른 사례와 마찬가지로 사용하는 데이터의 90% 이상이 정형 데이터다. 그렇지만 ‘120 다산 콜센터’는 데이터 텍스트 기반의 다크 데이터를 적극 활용 중이다. 서울시 관계자는 “시가 주최한 행사 등이 있다면 SNS의 데이터를 수집해, 시민들의 반응을 파악하고 정책에 다시 반영하고 있다”고 밝혔다.
전라남도 장성군은 CCTV를 이용한 범죄 해결 비율이 높다는 사실에 착안했다. 장성군 관계자는 “마을 단위 안전망을 촘촘히 하고, 안전 사각지대를 없애는 것이 목적”이라고 포부를 밝혔다. 기존 CCTV에 AI 기반 이상음원 감지장비를 설치해 비명소리 등이 들리면 바로 반응할 수 있게 했다. 소리 외에도 CCTV 영상 속에서 침입, 화재, 폭력 등이 보이면 자동으로 탐지 후 경보를 울리는 기능도 포함했다. 위급 상황은 바로 관제센터에 전달된다. 때문에 신고과정의 비효율성이 줄어들고, 범죄·사고의 초기 대응력도 강화됐다. 또 데이터가 쌓일수록 탐지 알고리즘의 정확도는 향상된다.