▲ 대구경북과학기술원은 최근 2018년 선도연구센터지원사업 공학분야(ERC) 지정공모에 선정돼 암흑데이터 극한활용 연구센터를 운용한다고 밝혔다. 출처=대구경북과학기술원

[이코노믹리뷰=황진중 기자] 대구경북과학기술원(DGIST)의 암흑데이터 극한활용연구센터(EEDD)가 정부의 선도연구센터지원사업 공학분야(ERC)에 선정돼 7년 동안 약 109억원을 지원 받아 암흑데이터를 이용한 블록체인, 인공지능(AI), GPU 컴퓨팅 등 차세대 빅데이터 플랫폼 융합 기술개발(R&D)에 돌입한 가운데 암흑데이터에 관심이 모인다.

이슬 서울대학교 컴퓨터미래인재양성사업단 교수는 서울대학교 의과대학에서 열린 의료빅데이터연구센터 개소기념 심포지엄에서 ‘암흑데이터 극한활용 센터: 의료데이터와의 연계’라는 주제로 최근 강연했다. 발표내용은 과학기술 연구데이터 공유‧활용 현항과 문제점, 암흑데이터 극한활용 연구의 필요성과 중요성, 텐서기반 바이오의료데이터 분석 등이다.

▲ 이슬 서울대학교 컴퓨터미래인재양성사업단 교수는 서울대학교 의과대학에서 열린 의료빅데이터연구센터 개소기념 심포지엄에서 ‘암흑데이터 극한활용 센터 의료데이터와의 연계’라는 주제로 강연을 하고 있다. 사진=이코노믹리뷰 황진중 기자

암흑데이터(Dark data)는 사람 혹은 기계에서 생성되지만 규모가 방대하거나 무한히 생성되고, 데이터로 만들 수 있는 수 있는 정형성을 갖추지 못한 데이터, 어디엔가 저장돼 있지만 존재 여부를 알 수 없거나 찾지 못하는 데이터, 이용자에게 필요한 데이터인지 알 수 없어 활용하기 어려운 데이터 등을 의미한다. 암흑데이터의 ‘암흑’이라는 말은 물리학, 생물학 등에서 사용하는 ‘암흑물질’에서 유래한 단어로 ‘대부분을 차지하고 있지만 알 수 없는’이라는 뜻을 의미한다.

쉽게 말해 생성되지만 활용되지 못하는 데이터인 암흑데이터는 IBM 기준으로 전체 데이터의 90%, 맥킨지 기준으로 99%를 구성하고 있다. 정보화 사회임에도 분석, 활용하는 데이터는 1%~10%인 셈이다. 이 데이터를 보관하기 위해 전력 에너지 90%가 낭비되고 있다고 알려졌다.

▲ 이슬 교수가 암흑데이터란 생성되지만 활용되지 못하는 데이터라고 설명했다. 사진=이코노믹리뷰 황진중 기자

이슬 서울대학교 컴퓨터미래인재양성사업단  교수는 한국의 연구데이터 공유‧활용 사이트의 문제점으로 연구 데이터의 대규모 크기로 업로드에 많은 시간과 노력이 소요되는 것과 유사한 데이터들이 여러 사이트에 중복 저장돼 있는 것, 관련 데이터가 사이트에 있어도 다른 데이터를 설명하는 데이터인 메타 데이터에 검색 키워드가 없으면 이용이 불가한 점, 일정한 형태나 형식이 정해지지 않은 비정형 타입이 대부분인 연구데이터의 특성상 한정된 개수의 속성값들로 메타 데이터를 정확히 기술하기 어려운 점 등을 들었다.

한국과학기술정보연구원(KISTI)은 데이터의 대부분을 구성하고 있는 암흑데이터를 활용하는 것이 중요하다는 이유로 1914년 이후 노벨상을 받은 연구의 87%가 대형장비를 이용한 대용량 데이터 분석을 통했다는 점을 든다. 이와 관련, 미국 2013년 과학기술국(OSTP), 영국 2014년 연구혁신기구(UKRI), 유럽연합(EU) 2015년 OpenAIRE(Open Access Infrastructure for Research in Europe), 호주 2017년 국가데이터서비스(ANDS)에서 과학기술 연구데이터를 공유‧활용하고 있다. 한국은 올해 1월 연구데이터 공유‧활용 전략을 세우고 뒤늦게 이를 따라가고 있다.

암흑데이터 극한활용 연구센터는 지금까지 불가능하다고 여겨진 대규모 데이터를 언제 어디서나 저장, 공유하면서도 이를 누구나 간편하게 분석, 활용할 수 있는 블록체인 기반의 탈중앙 분산 파일시스템, GPU, SSD 기반의 초고속 데이터 처리 기술, 분산된 소형 서버가 실시간으로 정보를 처리하는 엣지(dege) 컴퓨팅 등 융합 기술을 연구한다.

EEDD 연구센터는 또 데이터에 대한 메타 데이터와 이력 정보를 자동으로 추출하고 공유해 암흑데이터의 발생을 원천 차단할 수 있는 AI, 블록체인, 지능형 분산 검색 기술도 개발할 예정이다.

이슬 교수에 따르면 이는 각각 3년 7개월 과정인 1단계, 3년 과정인 2단계로 구분되며, 국가 연구데이터 플랫폼이 요구하는 기본 요건들을 충족시킬 수 있는 빅데이터 핵심기술의 R&D와 국가 암흑데이터를 극한으로 활용할 수 있는 차세대 빅데이터 원천기술의 R&D를 할 것으로 전망된다.

▲ 대구경북과학기술원 암흑데이터 극한활용 연구센터 개념도. 출처=대구경북과학기술원

연구센터 그룹 구성을 보면, 그룹 1은 김민수 DGIST 정보통신융합공학전공 교수 책임 아래 데이터베이스, 데이터마이닝, 병렬‧분산처리, AI‧기계학습 등을 연구한다. 그룹 2는 이성진 DGIST 교수가 연구원들을 이끌고 클라우드 컴퓨팅, 네트워크‧보안, 스토리지 분야를 분석한다. 윤형진 서울대학교병원 교수는 물리, 화학, 생물, 공학, 의학 등 과학기술 연구데이터 전문 분야를 다룬다.

이 연구센터는 2024년까지 정부 지원 약 99억원, 대구시 지원 약 9억9000만원 등 총 109억여원의 사업비를 지원 받고, 미국 IBM T.J. 왓슨연구소, 미국 MIT 등 세계 연구기관, 대학교와 공동연구를 할 계획이다.

김민수 교수는 “실제 10% 미만의 데이터만 활용하던 스몰데이터 시대에서 나머지 90% 이상의 암흑데이터까지 활용하는 진정한 빅데이터 시대로의 패러다임을 전환하는 기술을 앞서 연구개발하고자 한다”면서 “1914년 이후 노벨상 수상 연구의 87%가 대용량 연구 데이터 분석을 통해 이뤄질 정도로 연구 데이터의 공유와 활용이 중요한 만큼 관련 원천기술을 국가과학기술 연구데이터 플랫폼 구축에 적용하겠다