[이코노믹리뷰=김승현 기자, 박자연 기자] 국내외 기업이 다크 데이터(Dark Data)에서 쓸모 있는 정보를 캐내는 일에 열중하고 있다. 국내 게임업체 NHN, 엔씨소프트와 LGCNS, 롯데카드 등 대기업은 다크 데이터를 새로운 비즈니스 기회로 활용하는 데 박차를 가하고 있고 구글, 애플, 아마존, 스포티파이 등 이미 글로벌 기업들은 ‘다크 데이터’ 활용을 위해 AI 스타트업 인수전에 뛰어들고 있다.

시장조사회사 가트너는 다크 데이터를 “기업의 활동에서 수집, 처리, 저장하지만 다른 용도로 사용되지는 않는 정보 자산”으로 정의한다. 수치 등 정형화된 데이터가 아니라 사진이나 그림, 영상 등으로 돼 있는 데이터이며, 구식 디바이스 등에 저장돼 있기도 한다. 다크 데이터는 사람의 몸짓이나 군중의 함성, 사물의 냄새, 목소리에 담긴 감정처럼 분석이 어려운 데이터를 포함한다.

 

전 세계 데이터의 80% 이상이 '다크 데이터'

다크 데이터는 기업에게는 저장 공간만 차지하는 그저 불분명한 비정형 데이터일 뿐이다. ‘데이터의 서자’ 취급을 철저하게 받아온 데이터다. 하지만 다크 데이터는 공유 드라이브는 물론 셰어포인트와 같은 협업 툴, 이메일 아카이브, 문서를 관리하기 위한 기업콘텐츠관리시스템(ECM) 등 도처에 산재해 있다.

게다가 ECM과 같은 문서중앙화시스템을 구축하고도, 그 안에 들어 있는 데이터와 데이터가 담고 있는 정보를 제대로 활용하지 못해 저장비용만 늘어나 기업들이 골머리를 앓는 경우가 허다하다.

글로벌 정보보안 기업 베리타스는 “세계 IT 관리자들이 비즈니스 가치가 있다고 여기는 데이터는 15%에 불과하다”면서 “이대로 둔다면 저장과 관리에 드는 비용이 2020년에는 3조3000억달러에 육박할 수 있다”고 경고한 적이 있다.

▲ 데이터 빙하의 모형. 사진=이코노믹리뷰

IBM 리서치에 따르면 데이터의 총량을 100으로 봤을 때, IoT(사물인터넷)를 통해 활용되는 데이터는 12%에 그치는 반면 나머지 88%는 이용되지 않는다. 다시 말해 전 세계에서 생성되는 데이터의 80% 이상이 다크 데이터로 추산되지만 활용 방법이 마땅히 없어 대부분 사장되고 있는 것이다.

 

기업들이 ‘다크 데이터’ 채굴에 나선 세 가지 이유

기업들이 그동안 외면한 다크 데이터 활용에 나서는 이유는 여러 가지다. 우선은 클라우드의 등장으로 모든 것이 컴퓨터망으로 연결되는 초연결시대가 도래한 것을 꼽을 수 있다. 클라우드의 등장으로 도처에 방치돼 있거나 사장되고 있는 데이터를 채굴해 활용할 수 있는 길이 열린 것이다.

둘째, 비정형의 방대한 데이터를 처리할 수 있는 분석툴도 개발돼 속속 보급되고 있는 것도 한몫한다. 하둡, 팍사타, 어댑티브, 딥다이브 등이 그것이다. 하둡은 여러 대의 컴퓨터에서 대규모 데이터를 분산 처리할 수 있게 해주는 소프트웨어다.

게임산업 강자인 엔씨소프트는 이미 2011년 하둡을 채택해 수많은 유저들의 행동 패턴을 분석하고 이를 새로운 게임 개발에 활용하고 있다. 아마존과 마이크로소프트, IBM, 오라클, VM웨어 등도 하둡을 활용하고 있다. 애플은 머신러닝을 통해 비정형 데이터를 다크 데이터로 정형화하는 ‘딥다이브’ 분석툴을 보유한 인공지능 스타트업 래티스데이터를 2억달러에 인수하기도 했다.

셋째, 그대로 두면 데이터 저장장치만 차지해 기업들이 저장용량을 늘리는 데 막대한 투자를 해야 하는 원인이 되고 있다는 점과, 어디에 있을지도 모를 개인정보가 유출될 경우 막대한 피해를 줄 수도 있다는 점에서도 다크 데이터의 발굴, 채굴, 활용이 새롭게 주목받고 있는 것이다.

멀티클라우드 데이터 관리 기업 베리타스는 ‘2018년 데이터 관리 전망’에서 “많은 기업이 비용에 대한 고민 없이 무분별하게 클라우드를 도입한다”면서 “올해 기업의 IT 부서는 심각한 비용 문제를 마주할 것”이라고 전망했다.

▲ 기업의 데이터 유추사고 건수. 사진=이코노믹리뷰

백그라운드의 체크 서비스를 제공하는 업체 트루스파인더는 2005년에 157건인 기업의 데이터 유출 사고 건수가 해마다 증가해 2017년 1579건으로 12년 만에 10배나 증가했다고 밝혔다. 늘어나는 데이터 문제에 대해 시장조사기관 가트너는 “기업의 80% 이상이 2021년까지 전체에 통합된 데이터 보안 정책을 개발하지 못한다면, 보안 위협과 금융 부채로 이어질 것”이라고 주장했다.

데이터 보관을 위한 스토리지 비용도 무시할 수 없는 문제다. 관리할 대상이 많으면 손이 많이 가고, 위험요소가 많은 것은 당연하다. 다크 데이터의 활용을 통해 금전적인 위험요소를 떨쳐야 할 필요가 있다는 뜻이다.

정형화돼 인간 활동을 예측할 수 있는 데이터인 빅데이터의 전 단계인 다크 데이터는 이제 새로운 분석 툴의 등장과 기업들의 채용으로 데이터의 블루오션으로 재탄생하고 있다. 이제 다크 데이터는 마치 오랫동안 입지 않았던 옷 깊숙한 주머니 속에서 우연히 만 원짜리 지폐를 찾은 것처럼 가치 있는 비즈니스 원천이 되고 있는 것이다.