IT 산업은 가공, 비 IT 산업은 수집...데이터 라벨링의 현재는?

[이코노믹리뷰=최진홍 기자] 크라우드소싱 기반 인공지능 데이터 수집, 가공 플랫폼 기업 크라우드웍스가 6일 ‘2020 산업별 데이터 활용 수요 현황 분석 보고서'를 발간해 국내 IT기업들이 프로젝트 당 평균 8만5000개의 데이터를 수집 또는 가공했다고 발표했다.

데이터 라벨링은 인공지능(AI) 기술 고도화에 필요한 데이터를 수집하고 가공하는 작업을 의미하며, 한국판 뉴딜 핵심 중 하나인 디지털 뉴딜을 가능하게 만드는 데이터의 활용과 밀접한 관련이 있다. 데이터의 시대가 도래하는 가운데 데이터 라벨링은 그 자체로 4차 산업혁명 기반 인프라 강화의 주력인 셈이다.

크라우드웍스에서 올해 1월 1일부터 8월 31일까지 진행된 데이터 라벨링 프로젝트는 271건으로 이를 통해 수집 가공된 데이터 수는 총 2370만 개 이상으로 집계됐다.

데이터 라벨링에 가장 적극적인 곳은 단연 IT 업계다. 전체 271건의 데이터 라벨링 프로젝트 가운데 68.3%에 해당하는 185건이 IT 산업과 관련 있는 것으로 나타났다. 크라우드웍스는 "IT 서비스의 핵심인 고객과 운영 분석, 가격 최적화, 사기 및 부정행위 방지 등의 솔루션을 개발하기 위해서는 정확하고 정교한 대량의 데이터가 필요하기 때문"이라 설명했다.

프로젝트를 통해 수집하고 가공된 데이터량만 1576만개다.

IT 산업군 중에서도 가장 많은 데이터 라벨링을 진행한 분야는 인공지능(AI)로, 185건 가운데 44.9%인 83건으로 나타났다. 이어 시스템 34.6%(64건), 교육 7%(13건), 미디어 5.4%(10건) 순서다.

눈길을 끄는 곳은 시스템 분야의 데이터량이 압도적으로 높았다는 점이다. 전체 프로젝트 숫자로 보면 인공지능에 밀려 2위지만, 수집 가공된 데이터의 양은 IT 산업 군 전체 79.6%에 해당하는 1255만개에 달한다. 개발 초기 단계인 다른 IT 산업 군과 달리 상용화된 서비스의 고도화가목적이라 더욱 방대한 양의 데이터가 필요한 것으로 분석된다.

IT 산업군의 데이터 라벨링이 상당한 수치를 기록한 가운데 데이터 수요는 수집보다는 가공에 더 집중되어 있다. 전체 185건의 프로젝트 가운데 절반이 넘는 56.2%(104건)이 데이터 가공이었으며, 나머지 43.8%(81건)이 데이터 수집으로 조사됐다.

다만 인공지능과 시스템은 데이터 가공이 수집보다 2배 가까이 높았지만, 비교적 새로운 분야의 경우 데이터 수집이 가공보다 더욱 높은 수치를 기록했다. 새로운 사업의 경우 축적된 데이터의 양이 적기 때문에 우선은 수집에 방점이 찍히지만 어느정도 기술 발전이 진행중인 영역에 이르면 수집보다는 데이터를 가공하는 쪽에 무게를 두기 때문으로 보인다.

프로젝트별 데이터 유형은 전체 49.7%(92건)를 차지한 이미지가 가장 높았으며 이어 텍스트 19.5%(36건), 음성 15.7%(29건), 동영상 9.2%(17건), 설문조사 5.4%(10건), 기타 0.5%(1건)로 집계됐다.

한편 비 IT 산업군도 데이터 라벨링에 서서히 관심을 두고있는 것으로 확인됐다. 크라우드웍스에 올해 초부터 8월 31일까지 데이터 라벨링을 의뢰한 고객사 5곳 중 1곳이 제조와 유통, 의료, 금융 등 IT와 다소 거리가 있는 산업군인 것으로 알려졌다.

비 IT 산업 프로젝트 58건을 살펴보면 전체 32.8%(19건)를 차지한 제조업이 가장 많았으며,
이어 의료 29.3%(17건), 유통 19%(11건), 스포츠 6.9%(4건), 금융 5.2%(3건), 임대업 5.2%(3건), 기타 1.7%(1건) 순으로 집계됐다. 프로젝트를 통해 수집 가공한 전체 데이터량은 473만 개이며 개별 프로젝트 당 평균 데이터 라벨링 수는 8만1000여개 이상이다. 이는 IT 산업군과 비교해도 손색이 없는 수준이다.

비 IT 산업군에서는 데이터 활용에 있어 수집이 가공보다 더 수요가 많다. 전체 58건의 프로젝트 가운데 데이터 수집이 63.8%를 차지하고 있기 때문이다. IT 산업군과는 반대되는 결과며, IT 산업군에서 새로운 사업의 경우 데이터 가공보다 수집이 더 큰 비중을 차지하는 것과 동일한 이유라는 설명이다. 데이터를 직접 통제하거나 관리하고 싶은 산업의 경우 가공이 아닌 수집을 중심으로 데이터 라벨링을 한 것도 이러한 결과에 설득력을 더한다.

프로젝트별 데이터 유형에서는 이미지가 50%(29건)로 가장 높았으며, 비 IT 산업 가운데 단일 데이터 유형 수요가 가장 높은 산업 분야는 제조업으로 올해 초부터 약 8개월간 225만 개 이상의 이미지 데이터 라벨링을 진행했다.

공공기관의 데이터 라벨링 성적도 눈길을 끈다. 전체 산업 중 두 번째로 높은 287만 개의 데이터 라벨링을 진행했으며 프로젝트 별 데이터 라벨링 숫자도 20만 개로 전체 평균 8만 7000여 개에 비해 134% 높은 수치다.크라우드웍스의 데이터 결과기 때문에 전체 데이터 라벨링 비중으로 확정하기에 무리가 있으나, 표본조사의 차원이라는 것을 고려하면 공공기관의 데이터 라벨링 활용도 상당부분 의미있는 수준에 이르렀다는 분석이 가능하다.

정부가 적극적으로 추진하고 있는 인공지능 학습용 데이터 구축 사업의 결과가 반영된 것으로 보인다.

박민우 크라우드웍스 대표는 “데이터의 가치와 활용도를 높이기 위해서는 어떻게 수집하고 어떠한 방법으로 가공하느냐가 중요하다"라며 “크라우드웍스는 16만 데이터 라벨러와 함께 데이터의 새로운 가치를 창출하고 디지털 뉴딜 시대를 선도할 수 있는 기반 마련에 최선의 노력을 다해 나가겠다"고 말했다.

최진홍 기자 rgdsz@econovill.com

다른기사 보기

구독신청하러 가기

상단영역

본문영역

IT 산업은 가공, 비 IT 산업은 수집...데이터 라벨링의 현재는?

크라우드웍스 보고서 발표

기사 댓글 0

비회원 로그인

본문영역

SNS 기사보내기

키워드