디지털 시대에서 데이터는 세상을 바르게 이해하고 적절히 대응하는 데 필요한 기초 원료이다. 매일 인터넷에 올라오는 유튜브 비디오가 400만 시간 분량이고, 페이스북 메시지가 43억건이며, 구글 검색 건수가 60억건이라는 데이터를 굳이 인용하지 않아도 이젠 데이터가 넘쳐나는 세상임을 부인할 수 없다. 시스코(CISCO)는 2016년도에 발생한 디지털 데이터가 이미 1.1제타바이트(ZB)를 넘을 거라고 전망하고 있다. 제타바이트는 기가바이트의 1조 배이다. 매월 발생하는 데이터 양이 88.7엑사바이트(EB, 10억기가바이트)를 능가하며, 매년 22%씩 성장하여 2020년에는 2.3ZB(194EB/월)에 이르게 된다고 한다. 소셜네트워크상에서 발생하는 데이터뿐만 아니고 사물들의 상태를 모니터링하는 사물인터넷은 빅데이터 시대의 새로운 지평을 연다고 할 수 있다. 스마트 도시 인프라를 구성하는 각종 센서들, 인체의 건강변화를 측정하는 웨어러블 컴퓨팅, 움직이는 자율컴퓨터로 변신하는 자동차 등 데이터 발생원은 기하급수적으로 증가할 전망이다.

비즈니스 관점에서는 많은 데이터를 수집할수록 활용도가 높은 지능으로 전환하기 쉽다고 한다. 데이터가 증가하는 만큼 데이터를 빠르게 그리고 충분히 이해하는 우리의 능력도 함께 향상되는지 궁금하다. 전염병 전파로부터 주식 거래에 이르기까지 데이터는 시간의 함수이다. 몇 초만 정보를 이해하는 시간이 지체되어도 생명이 위태롭고 펀드가 손실난다. 통상적으로 빅데이터 분석을 통해 통찰을 얻어내는 시점과 실제로 대응조치를 취하는 시점 사이에도 상당한 시간차가 발생할 수 있다. 이런 간극을 줄이고 빅데이터 수집이 바로 통찰과 실행으로 직결되는 방향으로 기술발전이 진행된다. 특히 산업인터넷에서 고속으로 발생하는 빅데이터는 신뢰도나 상호 연관성 그리고 데이터 분석 결과에 의거한 신속한 대응조치가 매우 중요하다. 데이터 발생과 함께 실시간으로 의미를 발굴하는 ‘신속한(Fast) 데이터’ 처리가 중요하다.

 

‘스마트’ 데이터를 찾아낸다

빅데이터의 속성은 데이터의 양, 발생 속도, 신뢰성, 다양성 등으로 설명한다. 데이터의 양과 속도는 데이터 발생 과정을 나타내고 데이터의 신뢰성과 다양성은 데이터의 품질과 형태를 표현하고 있다. 수집된 데이터의 양이 많다고 다 중요한 것은 아니다. 신뢰도를 확보할 정도 이상의 데이터 확보는 불필요한 중복이다. 데이터의 중요성은 활용 목적에 달렸다. 스마트 데이터란 분석 결과에 미치는 영향도가 높은 데이터라고 할 수 있다. 데이터 수집 과정에서 상관성이 낮은 데이터는 배제하여 데이터 소음을 줄일 필요가 있다. 빅데이터 분석을 통해서 원하는 통찰을 얻으려면 ‘스마트(Smart) 데이터’를 채집하고 분석하는 방법을 찾아내야 한다.

사건이 발생하는 순간에 바로 의사결정을 할 수 있는 정보처리를 ‘신속한 데이터’ 처리라 부른다. 홍보부서는 고객 브랜드에 대한 나쁜 소문이 발생하는 순간에 바로 더 이상 확산되지 않도록 실시간으로 나쁜 소문을 완화시키는 대응조치를 할 수 있어야 한다. 조금만 늦어도 입소문이 손쓸 수 없을 만큼 퍼져버리기 때문이다. 유통회사는 자신의 신상품이 발매되는 순간에 신상품에 대한 시장의 반응을 포집할 수 있어야 한다. 질병관리본부는 유행성 질병이 확산되기 전에 신속히 방어망을 구축해야 한다. 은행은 글로벌 지정학적 상황변화 또는 사회경제적 흐름에 민감하게 반응하여 전략적인 투자활동을 할 수 있어야 한다. 유통기업이라면 도로공사나 재해발생 등에 따른 교통망 변화에 신속하게 대응하여 공급망 관리를 할 수 있어야 한다. ‘신속한 데이터’ 처리능력은 기업 활동이 반드시 갖춰야 할 정보처리 능력이며 비즈니스 성공을 위한 기본역량이다.

 

발생하는 모든 데이터를 저장할 필요는 없다

신속한 데이터 처리란 실시간 의사결정능력이다. 어떤 데이터가 발생하는 순간에 바로 사건 발생의 순간을 포착하는 능력이다. 어떤 사건 발생의 징후나 발생한 사건이 미칠 파장을 신속히 감지해내는 데까지 걸린 시간이 더욱 중요해졌다. 의미 있는 정보를 놓치지 않는 의사결정 능력이다. 더욱 중요한 비즈니스 촉감은 현재까지 진행되고 있는 데이터의 변화나 징후를 기반으로 앞으로 발생할 사건의 징후를 미리 예측하여 대응하는 능력이다. 따라서 빅데이터란 의미도 저장된 데이터의 양보다 실시간 발생하는 데이터 양으로 인식하는 추세이다. 저장된 데이터는 역사적인 추이를 장기간에 걸쳐 점검할 필요성이 있을 경우에 의미가 있다. 최근엔 데이터가 발생하는 순간에 데이터 연관성을 실시간으로 분석하여 의미 있는 변화가 발생하는 경우에만 대응수단을 강구한다는 의미에서 이벤트 중심으로 데이터를 저장한다. 간단한 예로 블랙박스에 저장하는 데이터는 일정 시간 동안만 저장하고 일정 시간이 지나간 후엔 자동 삭제된다. 반면에 어떤 의미 있는 상황이 발생하면 이벤트 정보로 별도로 분리하여 저장하고 이는 영구보존한다. 비즈니스 데이터도 마찬가지다. 실시간으로 데이터를 감시하지만 의미가 없는 데이터는 자동으로 삭제하고 저장하지 않는다. 따라서 의미 있는 이벤트를 선정하는 기준이 매우 중요해진다. 동시에 실시간 데이터를 모두 저장했다가 폐기할 때까지의 시간 간격도 중요하다. 예를 들면 사고의 원인을 밝히는 목적의 자동차 블랙박스라면 수 시간 이상의 데이터 저장은 의미가 없을 수 있다. 하지만 이벤트 조건에 들어가는 데이터는 나중에 검색할 수 있도록 별도로 일주일 이상 데이터를 보관할 수 있다. 이렇게 사건을 유추하는 데 결정적 의미를 갖는 데이터를 ‘스마트 데이터’라 부르며 의미 있는 의사결정에 근거가 되는 데이터의 포착 순간을 결정하는 기술이 중요하다.

가트너가 뽑은 2016년도 톱 트렌드는 기계학습이다. 기계학습의 목적은 빅데이터 속에 숨어 있는 패턴이나 속성을 발굴하기 위해서이다. 비즈니스의 의사결정에 필요한 데이터 분석 능력은 수많은 사례 분석을 통해서 얻어진다. 데이터의 수집과 학습이 전제되어야 한다. 비즈니스에서 의미 있는 통찰을 뽑아내기 위해서는 비즈니스에 맞는 데이터를 선정하고 비즈니스 성과에 미치는 여러 데이터의 상관성을 찾아내야 한다. 공장에서 발생하는 데이터도 마찬가지다. 여러 센서에서 수집되는 데이터의 상관성을 정확히 파악해야 사고의 원인을 추정하고 추후에 사고가 발생할 가능성을 미리 예지할 수 있는 능력이 생긴다. 이런 데이터의 속성이나 상호연관성은 오랜 시간 저장된 데이터의 분석을 통해서 가능하고 최근엔 컴퓨터 기계학습을 통해 의미 있는 변수나 패턴을 발굴해낼 수 있다.

기업들은 미래 경쟁력을 강화하기 위해서 지금 어떤 대비를 해야 하는지에 대해서 항상 관심이 높다. 최근 들어선 기업 활동에 인공지능을 활용해야 한다는 말을 많이 듣지만 솔직히 정교한 기술기업이 아니라면 기계학습이나 인공지능은 기업의 핵심역량에서 벗어나 있다. 인공지능을 비즈니스에 어떻게 도입해야 할지에 대해서 아이디어가 빈곤하다.

 

기계학습은 ‘왜’라는 의문에 답하지 않는다

빅데이터에서 무의미한 데이터를 솎아내고 ‘스마트 데이터’만을 가려내는 조건은 기계학습을 통해서 찾아낼 수 있다. 빅데이터를 딥러닝(Deep Learning) 같은 기계학습 알고리즘으로 처리해서 의미 있는 데이터 패턴을 다양하게 찾아내면 이 패턴들이 바로 ‘스마트 데이터’이다. 기계학습의 목적은 예측에 있다. 어떤 사건이 발생할지에 대해서 연관성을 말해준다. 하지만 왜 그런 일이 벌어지는지에 대해선 말해주지 않는다. 데이터 분석을 통해 밝혀진 인과관계는 이론적으로 별도로 해석해야 할 문제이다. 어떤 일이 발생할지는 짐작하지만 왜 발생하는지 모르면 위험을 피할지는 몰라도 운명을 바꾸는 방법은 모른다. 기계학습은 ‘왜’라는 의문에 답하지 않는다. 기업은 기계학습에서 도출한 사건의 인과관계를 바탕으로 사건의 발생 원인이 무엇인지 이론적으로 미리 밝혀내야만 문제를 해결할 수 있는 대책 즉 대응수단을 마련할 수 있다.

비즈니스에 인공지능을 활용한다는 의미는 데이터를 수집하고 기계학습해서 ‘스마트 데이터’를 간추려 낸다는 의미이다. 다양한 기기에서 수집한 ‘스마트 데이터’들을 실시간으로 분석해서 비즈니스에 활용할 수 있는 통찰을 신속히 이끌어내는 데이터 처리 과정을 포함한다. 컴퓨터 인공지능은 수많은 ‘스마트 데이터’들의 사례분석에 근거하여 사건의 발생 가능성을 종합적으로 예측하게 된다. 하지만 사건의 발생을 사전에 차단하는 이전 사례가 데이터로 등록되어 있지 않거나 이론적으로 대책을 마련하는 수학적 모델이 없다면 인공지능도 사건을 차단할 묘안이 없다. 기업별로 발생하는 특수상황이라면 더욱 그렇다. 판매되는 인공지능 소프트웨어가 제시하는 해법은 기업별 특수성에 맞지 않는 일반적 사례일 뿐이다. 기업별로 발생하는 ‘스마트 데이터’의 발생 조건을 이론적으로 미리 밝혀 놓아야만 사건 발생을 막는 수단도 가능해진다. 인공지능은 종합적인 데이터 학습과 사례별 대응수단이 사전에 갖춰져야만 제대로 활용할 수 있다. 기업의 특수상황에서 발생할 수 있는 사건의 사례별로 이론적 대책이 필요하다. 예를 들면 암을 진단하는 인공지능이 있지만 이 기술이 가능한 배경은 암 발생과 직결된 수많은 ‘스마트 데이터’를 기계학습을 통해 밝혀냈기 때문에 암을 진단할 수 있게 되었고, 암을 치료하는 방법은 사례별로 이론적인 치료법들이 이미 연구되어 있기 때문에 인공지능이 치료법을 제시할 수 있는 것이다. 기업의 비즈니스에 인공지능이 도입되려면 기업에 맞는 데이터 학습이 필요하고 사례별 대응책이 별도로 준비되어야만 비로소 인공지능의 활용이 가능하다는 점을 인식해야 한다. 인공지능은 절대로 만사형통이 아니다.