'데이터 인사이트'라는 표현이 당연하게 받아들여지는 시대다. 실제로 많은 기업들은 데이터를 통해 비즈니스 모델을 고도화하고 미래 비전을 설계하며 다양한 가능성을 타진하고 있다. 실시간 스트리밍 데이터의 유연하고 신속한 활용에 많은 기업들이 주목하고 있다. 

문제는 데이터 인사이트로 향하는 길이 상당히 험난하다는 점이다. 특히 기술의 발전으로 데이터 절대량 자체가 많아진 가운데 적시 활용에 대한 난이도가 상상을 초월하는 수준이라 어렵다. 데이터의 잠재력은 무궁무진하지만 유효기간이 짧고 쉽게 부패할 수 있는 민감한 재료기 때문이다.

이를 극복하고 맛있는 요리를 할 수 있는 방법은 없을까? 

민디 퍼거슨(Mindy Ferguson) AWS 스트리밍 및 메시징 부사장은 "데이터의 적시적 활용을 통해 고객 개인화 및 비즈니스 전망을 구체적으로 시도해야 한다"면서 "비즈니스의 고유한 가치와 생성형 AI 기술을 연결하는 데이터에 주목해 기업의 인사이트를 끌어내는 것이 중요"라고 조언했다. 데이터의 특성에 주목해 생성형 AI 등을 활용한 입체적 전략이 필요하다는 뜻이다.

최근 방한한 그를 지난 2일 AWS 코리아 오피스에서 만나 이야기를 들어보았다.

한편 2022년 7월 AWS에 합류한 민디 퍼거슨 부사장은 각 파트너 기업들이 실시간 스트리밍 데이터를 활용해 강력한 현실을 추구하도록 돕고 있다.

이번 방한을 통해서도 스타트업부터 대기업, 헬스케어, 금융기관에 이르는 수만의 한국 고객과 실시간 데이터 스트리밍 협력을 논의했으며, 배치 데이터(Batch Data)에서 실시간 스트리밍 데이터로 전환하는 방법부터 생성형 AI 및 데이터 스트리밍을 활용하는 방법에 이르는 모든 영역에 대해서도 의견을 나눴다. 또 본사의 책임있는 핵심 임원으로서 AWS 코리아 구성원들과 커피 한잔을 마시며 마음을 나누는 컬처 챗(Culture Chat) 타임도 가졌다는 설명이다.

민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아
민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아

실시간 스트리밍 데이터, 그리고 생성형 AI
이제 기업이 생존하기 위해서는 데이터를 인지하고 확보하는 것을 넘어, 적극적으로 활용할 수 있는 전략적 판단이 필수적이다.

민디 퍼거슨 부사장은 "데이터는 모든 기업이 내리는 모든 비즈니스 의사결정의 기반이자 토대"라면서 "현재 기업들은 데이터가 비즈니스에 의미 있는 가치를 창출할 수 있는 차별화 요소이자 진정한 비즈니스 가치라는 사실을 명확하게 깨닫고 있다"고 말했다.

자체 데이터에 대한 관심도 커지고 있다. 민디 퍼거슨 부사장은 "동일한 파운데이션 AI 모델보다 자체 데이터를 통해 특화된 AI 모델을 가진다면 다른 기업과의 차별성을 제공할 수 있을 것"이라며 "고객을 위해 실질적인 가치를 만들어내는 데 성공하는 기업은 결국 자체 데이터를 활용하는 기업"이라 말했다.

문제는 데이터 중요성이 커지는 만큼 그와 비례해 작업 난이도가 크게 올라가는 지점이다. 전 세계적으로 엄청나게 많은 데이터가 쏟아지는 가운데 일반적인 데이터가 아닌 '실시간' 스트리밍 데이터의 전략적 가치는 더욱 커지는 중이지만, 양이 많고 창출되는 속도까지 빠른 실시간 스트리밍을 어떻게 적절히 활용해야 하는지에 대한 고민이 깊어지고 있다. 

이 고민에 대한 답은 생성형 AI 기술로 찾을 수 있다.

민디 퍼거슨 부사장은 "많은 기업들이 재고 데이터, 계정 데이터, 고객을 대신한 익명화된 데이터 등 자체 데이터 저장소를 보유하고 있다"면서 "실시간 스트리밍 데이터는 수많은 데이터 소스를 가져와 데이터를 모으기도 하고, 수십억 개의 파라미터를 처리할 수 있는 생성형 AI에 데이터를 공급할 수 있게 해주는 '연결고리'의 역할도 한다"고 말했다. 생성형 AI 기술이 많은 기업들에게 그저 '많은 데이터'가 아닌, 활용이 가능하고 의미있는 데이터를 제공할 수 있다는 취지다.

민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​
민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​

실시간 스트리밍 데이터+생성형 AI=초개인화
생성형 AI 기술을 통해 활용 난이도가 어려운 실시간 스트리밍 데이터를 활용할경우 어떤 인사이트를 얻을 수 있을까? 구체적으로 실시간 스트리밍 데이터의 잠재력을 극한으로 끌어올리면 어떤 효과를 창출할 수 있을까? 민디 퍼거슨 부사장은 '초개인화'에 주목했다.

그는 "게임사들은 플레이어가 가능한 오랜 시간 게임을 하길 원하면서, 그 경험이 각 개인에게 고유한 경험이 되길 원한다"면서 "플레이어가 독특하고 개인화된 경험을 해야 한다는 뜻"이라 말했다. 이어 "개인화된 경험을 제공하려면 각각의 플레이어들이 어떤 성향을 가지고 있는지, 캐릭터들의 선호 무기와 의복 등까지 거의 실시간으로 파악해야 한다"면서 생성형 AI 기술로 실시간 스트리밍 데이터를 효율적으로 처리할 때 이러한 초개인화 경험이 가능해진다"고 말했다.

AWS가 이 지점에서 중요한 역할을 수행하고 있다는 설명이다. 민디 퍼거슨 부사장은 "데이터를 활용한 후 머신러닝(ML) 알고리즘을 통해 스트리밍으로 데이터를 다시 가져오는 경우도 많다"면서 "아마존 매니지드 서비스 포 아파치 플링크(Amazon Managed Service for Apache Flink, 이하 플링크) 등의 서비스를 사용해 데이터를 보강한 후, 다음 단계의 게임이 타인과 다른 나만을 위한 고유한 경험이 될 수 있도록 만들기도 한다"고 부연했다.

이러한 초개인화 전략은 이커머스 로드맵에서도 그려진다. 네이버가 인수한 중고 C2C 플랫폼 포시마크(Poshmark)에 주목할 필요가 있다.

포시마크는 당근마켓과 비슷하게 중고거래를 지원하지만 상품이 중심이 아닌 커뮤니티를 핵심으로 한다. 인플루언서가 중고거래를 판매하며 고객과 교감한다. 고객은 상품이 아닌 인플루언서에 집중하며 그들이 판매하는 옷장의 상품을 구매하며, 소통하는 개념이다.

민디 퍼거슨 부사장은 "포시마크는 사업 초기부터 데이터 전략을 구상하며 '어떻게 하면 매출을 극대화할 수 있는지'에 맞췄고, 개인화를 통해 목표를 달성하고자 했다"면서 "포시마크는 실시간으로 진행되는 온라인 소셜 이벤트인 포시 파티(Posh Party)를 열며 실시간 스트리밍 데이터와 추천 등을 통해 적절한 사람들을 적시에 유도할 수 있는 개인화된 경험을 제공했다"고 설명했다.

역시 AWS의 기술력이 큰 힘이 됐다. 그는 "포시마크는 아마존 매니지드 스트리밍 포 아파치 카프카(Amazon Managed Streaming for Apache Kafka, 이하 아마존 MSK)를 통해 두 자릿수 밀리초의 극히 짧은 지연시간으로 진정한 실시간 경험을 전달했다"면서 "실시간 데이터를 확보한 후 해당 데이터를 보강하거나 여러 데이터 스트림을 결합할 때도 높은 처리량과 짧은 지연시간을 담보하는 플링크가 여기에도 큰 역할을 했다"고 말했다.

그는 이어 "포시마크가 사용하고 있는 아키텍처 패턴은 아마존 MSK를 통해 대량의 데이터와 여러 데이터 소스를 수집하는 것"이라며 "플링크를 통해 데이터를 보강한 후 이를 ML과 AI에 공급하고 AI 훈련장인 아마존 세이지메이커(Amazon SageMaker)를 사용하기도 했다"고 말했다. 초개인화 전략에 필요한 실시간 스트리밍 데이터의 강점을 AI 전략으로 극대화시킨다는 뜻이다.

이 전략에는 생성형 AI도 포함된다. 실제로 민디 퍼거슨 부사장은 "포시마크의 실시간 데이터 스트리밍 전략에는 아마존 세이지메이커가 활용되지만 생성형 AI를 위한 아마존 베드록(Amazon Bedrock, 이하 베드록)도 적용된다"고 말했다. 아마존 베드록은 대규모 언어 모델 및 AI21 랩스(AI21 Labs), 앤트로픽(Anthorpic), 코히어(Chohere), 메타(Meta), 스태빌리티 AI(Stability AI), 아마존의 파운데이션 모델(FM)에 쉽게 액세스할 수 있는 완전 관리형 서비스다. 최근 앤트로픽 클로드 2.1(Anthropic Claude 2.1), 메타 라마 2 70B(Meta Llama 2 70B)까지 아우르는 확장 전략을 보이기도 했다.

민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​
민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​

1만2000명 서비스를 단숨에 650만으로 키운 마법은?
AWS가 보여주는 실시간 스트리밍 데이터의 마법은 통신 산업에서도 두각을 보이고 있다. 아마존 키네시스(Amazon Kinensis)의 경우 KT와 LG유플러스도 적극 활용할 정도며 특히 LG유플러스는 AWS 데이터싱크(AWS DataSync), 아마존 MSK, 그리고 데이터를 아마존 오로라 RDS에 공급하는 디비지움 커넥터를 사용하는 등 AWS와 긴밀히 협력하고 있다.

영국 브리티시 텔레콤(British Telecom, 이하 BT)의 사례에 주목할 필요가 있다. 1만2000명 서비스를 단숨에 650만 서비스로 키워냈기 때문이다.

민디 퍼거슨 부사장은 "BT의 스마트 허브 2(Smart Hub 2) 디바이스는 자체적으로 서비스 품질에 대한 매트릭스를 스트리밍했고, BT도 내부에 네트워크 토폴리지(network topology)를 가지고 있어 네트워크의 현황을 파악하는 것도 가능했다"면서 "이런 상황에서 디지털 보이스(Digital Voice)라는 신제품을 론칭할 때 1만2000명을 대상으로 지원하던 것을 갑자기 650만명의 사용자에 대해 지원해야 되는 상황이 됐다"고 말했다.

문제는 이 과정에서 벌어지는 심각한 지연시간이다. 그는 "배치 데이터로 이뤄지는 하둡(Hadoop)을 사용한 가운데 무려 15분의 지연시간이 발생했다"면서 "사용자들이 디지털 보이스로 통화를 하고 있는 동안 실시간 네트워크 현황을 파악하는 것은 불가능해졌다"고 말했다.

플링크가 구세주로 등판했다. 민디 퍼거슨 부사장은 "플링크로 스마트 허브 2 디바이스와 네트워크 토폴리지의 데이터를 사용해 이 두 개의 데이터를 연합시키고 보강한 후 마지막으로 지리 정보로 데이터를 최종 구축했다"면서 "구체적으로 지리 정보를 사용해 실시간으로 데이터를 쿼리(query)하고 스마트 허브 2 디바이스 정보와 실제 디바이스 ID를 사용해 네트워크 핫스팟(hotspot)이 어딘지 실시간으로 파악할 수 있게 됐다"고 설명했다.

플링크로 대용량 실시간 스트리밍 데이터의 홍수를 효과적으로 제어하고 관장하며, 나아가 입체적으로 활용할 수 있다는 뜻이다. 디비지움 커넥터 등을 활용하는 LG유플러스의 사례가 대표적이다.

한편 실시간 스트리밍 데이터의 폭발적 잠재력 창출은 농업과 같은 전통사업에서도 위력을 발휘하며, 간혹 미래를 예견하기도 한다. 민디 퍼거슨 부사장은 "농업 분야에서 수많은 센서를 통해 데이터를 확보, 농장의 급수 시점과 수확 시기는 물론 해충 방제 방법을 파악하는 데 도움을 얻을 수 있다"면서 "실시간으로 충분한 데이터를 확보하고 패턴을 파악해 어떤 일이 발생하기 직전의 시점을 파악하면 기상 이변이나 병충해에 대처하기 위한 계획을 세워야 하는 시점을 미리 파악할 수도 있다"고 말했다.

그는 이어 "플링크, 아마존 MSK, 아마존 키네시스 데이터 스트림(Amazon Kinesis Data Streams), 아마존 키네시스 데이터 파이어호스(Amazon Kinesis Data Firehose) 등 은 데이터 파이프라인을 유기적으로 만들어 다양하게 사용할 수 있도록 돕는다"면서 "이를 바탕으로 각 기업들은 실시간 스트리밍 및 메시징 서비스를 통해 데이터 파이프라인을 한 번만 구축하면, 해당 데이터를 여러 다운스트림 대상에 공급해 원만하게 활용할 수 있다"고 말했다.

데이터 활용에 있어 파이프라인의 경직성을 무너트리고, 각 조직 내 데이터 파이프라인을 유기적으로 연결해 그 시너지를 창출한다는 뜻이다.

지속가능성에도 주목해야

아마존은 2019년 글로벌 옵티미즘(Global Optimism)과 함께 기후서약을 출범해 파리협정의 목표보다 10년 앞선 2040년 넷제로(Net-Zero) 달성을 목표로 상정한 바 있다. 아마존은 이미 전체 사업에서 재생에너지 사용 비율을 90%까지 끌어올리기도 했다.

당연히 AWS의 실시간 데이터 스트리밍 전략도 여기에 속해있다는 설명이다.

민디 퍼거슨 부사장은 "그래비톤 3 인스턴스의 아마존 MSK가 유사 아마존 EC2(Amazon Elastic Compute Cloud, Amazon EC2) 인스턴스 대비 60%의 전력 효율성을 달성하고 있는 데 큰 자부심을 느낀다"면서 "최근 리인벤트에서 발표된 트레이니움2와 그래비톤4 모두 가격, 성능, 전력 효율 측면에서 큰 개선이 있었으며 ML이나 ML 트레이닝부터 생성형 AI 학습 트레이닝까지 다양한 고객의 워크로드를 충족시킬 수 있다"고 말했다.

그는 "지속가능성은 AWS뿐 아니라 모두가 함께 동참해야 하는 여정이기에 고객들을 위한 툴도 제공하고 있다"면서 "고객이 AWS 사용으로 인해 발생하는 탄소 배출량을 계산해 실제로 자신의 지속가능성 목표를 설정하고 임팩트도 이해할 수 있는 AWS 고객 탄소 발자국 도구(AWS Customer Carbon Footprint Tool), 조직이 워크로드의 영향을 더 잘 이해할 수 있도록 설계하는 AWS 웰아키텍티드 프레임워크(AWS Well-Architected Framework)이 대표적"이라 말했다.

민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​
민디 퍼거슨 AWS 스트리밍 및 메시징 부사장. 사진=AWS 코리아​

데이터는 즉시성이 생명, 진정한 차별화 나서야
민디 퍼거슨 부사장은 데이터의 중요성을 여러번 설명하면서 그 유효기간이 짧다는 것도 거듭 강조했다. 그는 "데이터는 빠르게 활용하지 않으면 부패하기 쉽다"면서 "데이터를 즉시에, 적시에 사용하는 것은 매우 중요한 요소"라고 말했다. 

그는 나아가 "생성형 AI 기술을 동원해 실시간 데이터 스트리밍을 효과적으로 활용하면 초개인화 서비스를 제공하는 한편 미래 예측을 넘어 불가능해 보일 수 있는 다양한 서비스들까지 유연하게 끌어낼 수 있다"면서 "이를 위해 각 기업들은 데이터의 중요성을 새롭게 인지하면서 데이터 중심의 비즈니스 전략을 내재화해야 한다"고 조언했다.