[이코노믹리뷰=최진홍 기자] AI 스타트업 스캐터랩이 서비스하던 이루다를 둘러싼 논란이 여전하다. 20세 여성으로 포지셔닝된 이루다를 대상으로 이용자들이 무차별 성폭력을 단행해 잡음이 불거진 가운데, 이 과정에서 AI 이루다의 학습이 기형적으로 진행되는 일까지 벌어져 파장이 커지고 있다.

엄청난 후폭풍이 몰아친 가운데 이루다 서비스는 종료됐으나 여진은 계속되고 있다. 무엇보다 AI 학습을 위해 이루다를 서비스하는 스캐터랩이 이용자들의 개인정보를 유용했다는 비판까지 나오며 상황이 심상치않게 돌아가는 중이다.

이루다. 출처=갈무리
이루다. 출처=갈무리

고개숙인 스캐터랩
AI 및 데이터 시대가 열리며 개인정보활용에 대한 본격적인 논의가 시작되고 있다.

핵심은 '어디까지 이용자의 데이터를 확보하고 활용할 수 있는가'로 볼 수 있다.

당장 페이스북이 여론조사업체인 CA에 이용자들의 데이터를 제공하며 전세계적인 논란이 벌어진 후 각 기업들은 AI 성능 향상을 위한 데이터 수집 '수준'에 촉각을 곤두세우는 분위기다.

무엇보다 지난해 미 의회에서 빅테크 기업들에 대한 견제구를 날린 가운데 그 핵심이 데이터, 즉 개인정보보호와 관련된 현안이라는 점에 집중할 필요가 있다. 미 하원 법사위 산하 반(反)독점소위가 공개한 449 페이지 분량의 보고서에는 대부분 빅테크 기업들의 데이터 유용에 대한 경고로 가득하며, 유럽연합이 최근 발표한 디지털 시장법에도 빅테크 기업들의 무분별한 데이터 확보를 막는 장치가 마련되어 있다.

이런 상황에서 14일 업계 등에 따르면 국내 유망한 AI 스타트업인 스캐터랩이 이루다를 서비스하며 이용자들의 개인정보를 유용했다는 주장이 나오자 업계는 바짝 긴장하고 있다. 무엇보다 스캐터랩이 별도로 운영하고 있는 '연애의 과학'이라는 앱 서비스를 통해 이용자들의 데이터를 무단으로 확보해 이를 이루다 서비스에 유용했다는 정황이 폭로되며 논란은 더욱 증폭되는 중이다.

AI 학습을 위해 최대한 데이터를 확보해야 하는 기업들 입장에서는 '이루다 쇼크'가 남 일이 아닌 셈이다.

스캐터랩은 일단 고개를 숙였다. 스캐터랩은 "데이터의 개인정보처리와 관련한 부분은 개인정보보호위원회 및 한국인터넷진흥원(KISA)에서 조사가 진행 중"이라며 "논란이 되는 모든 사항에 대하여 진상조사위원회를 구성하여 사내에서도 철저히 조사하는 한편, 외부 전문가를 포함한 상시개인정보보호체계를 구축하고, 재발 방지를 위한 강화된 보안 교육을 실시하는 등의 자체적인 노력도 게을리하지 않을 것"이라 말했다.

나아가 "앞으로는 스캐터랩의 서비스 운영 원칙이 발전해나가는 AI 윤리에 관한 사회적 합의에 보다 부합할 수 있도록 지속적으로 가다듬어, AI를 연구하는 다른 기업들의 모범이 될 수 있는 기업이 되도록 노력하겠다"고 말했다.

출처=스캐터랩
출처=스캐터랩

논란을 짚어보자
스캐터랩이 고개를 숙인 현재, AI 업계의 의미있는 토론을 위해 현안을 분절해 살펴볼 필요가 있다.

현재 이루다를 둘러싼 논란은 크게 세 가지로 분류할 수 있다. 이루다에 대한 성폭력, 이에 따른 이루다의 그릇된 진화, 마지막으로 스캐터랩의 개인정보 유용이다.

여기서 이루다에 대한 성폭력과 이에 따른 이루다의 그릇된 진화는 '원인'과 '결과'로 볼 수 있다. 다만 원인은 이용자들의 행위로 볼 수 있기에 스캐터랩의 100% 귀책사유는 아니며 결과인 이루다의 그릇된 진화는 일정정도 스캐터랩의 설명이 필요하다.

스캐터랩은 시스템의 미비했다는 점을 인정했다.

스캐터랩은 "6개월 간의 베타테스트를 통해 문제발생을 미연에 방지하기 위해 여러 조치를 취했다. 특정 집단을 비하는 호칭이나 혐오 표현의 경우, 베타테스트 기간 동안 발견 즉시 별도의 필터링을 진행했다"면서 "기존에 알려진 사례들은 이미 개선을 완료했으며, (앞으로) 새롭게 발견되는 표현과 키워드를 추가해 차별이나 혐오 발언이 발견되지 않도록 지속적으로 개선 중"이라 말했다. 앞으로 개선해 나갈 수 있는 여지가 있다는 뜻이다.

이 지점에서 마지막 문제, 즉 스캐터랩의 개인정보 유용 의혹에 집중할 필요가 있다.

스캐터랩은 이루다를 개발하는 과정에서 별도의 서비스인 '연애의 과학'으로 수집한 메시지를 데이터로 활용한 바 있다. 다만 개인정보를 유용해 불법적으로 활용했다는 지적에는 선을 그었다. 사전에 동의가 이루어진 개인정보취급방침의 범위 내에서 활용했다는 설명이다.

취재 결과 스캐터랩은 이루다를 학습시키며 핑퐁 데이터베이스를 통해 프리트레이닝 단계를 거쳤고, 이 단계는 연애의 과학 텍스트 데이터를 기반으로 학습이 진행된 것이 맞다. 다만 데이터는 발화자의 이름 등 개인 정보가 삭제된 상태로 발화자의 정보는 성별과 나이만 인식이 가능하다는 설명이다.

AI는 프리트레이닝 단계에서 사람간의 대화 속에 존재하는 맥락과 답변의 상관관계만을 학습하게 되며, 이 때의 데이터는 외부로 노출되지 않는다는 것이 스캐터랩의 일관된 주장이다.

이루다는 회원 정보와 연계되어 있지 않은 별도의 DB에 수록되어 있는 문장으로 이용자에게 응답하고 있다. DB는 1억개의 개별적이고 독립적인 문장들로 구성되어 있어, DB의 문장들을 조합하여 개인을 특정하는 것은 불가능하다는 것도 스캐터랩의 입장이다.

다만 업계 및 전문가들은 스캐터랩의 주장에도 미심쩍은 대목이 있다고 본다. 데이터 확보 과정에서 법을 지켰으며 비식별 정보를 바탕으로 서비스를 했다고 하지만, 이루다의 개발 기록이 깃허브에 올라온 것이 발견됐기 때문이다. 지금의 논란과 방향은 다르지만 스캐터랩의 데이터 보안에 문제가 있다는 증거로 여겨진다.

스캐터랩은 일단 깃허브를 통한 개발 기록 유출은 인정했다. 스캐터랩 개발팀이 2019년 깃허브에 오픈 소스로 공개한 'KG-CVAE -AI 한국어 자연어처리(NLP) 연구 모델에 내부 테스트 샘플이 포함된 사실을 확인했다. 문제를 발견한 즉시, 해당 깃허브 레파지토리는 비공개 처리가 되었으나 논란은 피하기 어려워 보인다.

다만 이루다의 DB는 개별적이고 독립적인 문장 DB로 관리되고 있어 깃허브 논란으로 데이터 유출이 벌어지지 않는다는 주장이다. 무엇보다 깃허브에 업로드되었던 테스트용 데이터는 이루다 DB와는 그 내용과 구성이 다르기 때문에 이 문제로 이루다의 데이터 유출을 운운하는 것은 무리가 있다는 설명이다.

그렇다면 다음 의문이 남는다.

개인정보가 특정되어 유출되지 않았는데 어떻게 이용자들이 이루다와 대화를 나누며 제3자를 특정할 수 있는 콘텐츠를 확인할 수 있었을까.

스캐터랩은 오해라는 설명이다. 스캐터랩은 "이루다의 딥러닝 모델은 학습된 데이터를 대화나 문장의 형태로 저장하는 것이 아니며, 데이터를 통한 패턴만을 학습한다"면서 "이루다의 딥러닝 모델은 다음과 같은 벡터값의 형식으로 데이터를 이해하고 있기 때문에, 메신저 대화 내용들이 한글 그대로 데이터에 저장되지 않는다"고 해명했다.

마지막으로 스캐터랩은 내부 직원들의 개인정보 무단열람에 대해서는 "개인정보와 관련된 원 데이터에 접근할 수 있는 권한은 엄격하게 제한하여 철저히 관리하고 있다"면서 "진상을 신속히 조사하고, 만에 하나 의혹이 사실로 드러나는 경우에는 직위 고하를 불문하고 관련자들에게 엄중히 책임을 묻고 필요한 조치를 취하도록 하겠다"고 말했다.

이루다. 출처=갈무리
이루다. 출처=갈무리

최초 해명 당시에는 '그런 일 없다'는 입장을 보였으나, 시간이 흘러 논란이 커지자 한 발 물러선 것으로 보인다.

AI의 윤리
이루다를 둘러싼 개인정보보호 논란은, 만약 스캐터랩의 주장이 사실이라면 법적인 문제는 없을 것으로 보인다. '연애의 과학'을 통해 축적한 데이터를 분명한 고지를 중심으로 확보했고 이를 이루다의 서비스에 활용했기 때문이다. 나아가 깃허브에 노출된 DB와 이루다의 DB가 다르다면 이 역시 보안 인프라의 미흡으로 보기 어렵다.

다만 분명한 고지를 통해 데이터를 확보했음에도 이용자들이 그 사실을 제대로 인지하지 못했고, 이 과정에서 논란이 터져나온 것은 스캐터랩이 풀어야 할 숙제다. 단순한 약관동의로 법의 가이드 라인을 지켰으나 이용자들이 체감하는 '데이터 활용의 허락'은 그 체감이 다르기 때문이다.

법적으로 문제는 없다지만 스캐터랩과 같은 AI 기업들이 향후 데이터 확보 및 활용에 있어 더 구체적인 가이드 라인을 구축해야 한다는 쪽에 무게가 실린다. ICT 테크인사이더 연구소의 박병희 수석연구원은 <이코노믹리뷰>와의 통화에서 "스캐터랩의 주장이 사실이라면 연애의 과학을 통해 확보한 데이터를 '로우 데이터'로 삼아 이루다 서비스에 활용한 것은 위법이 아닐 가능성이 높다"면서도 "개인약관 동의만으로 이용자들이 스스로의 데이터가 유용된다는 것은 데이터 주권 측면에서 문제가 될 소지가 있다. 업계가 고민해야 할 부분"이라 말했다.

AI에 대한 전반적인 윤리 가이드 라인이 필요하다는 점도 부각된다. 이는 이용자는 물론 회사, 나아가 AI 자체에 대한 윤리 가이드다. 박 수석연구원은 "AI가 어디까지 정보를 확보하고 어떻게 활용하는지를 면밀한 공통 가이드 라인으로 정립할 필요가 있다"면서 "서비스 시작과 동시에 인종차별주의자로 변해버려 결국 사라진 마이크로소프트의 테이와 같은 논란이 벌어지지 않으려면, AI의 학습과 양질의 데이터 공급을 이어주는 투명한 플랫폼 정책도 필요하다"고 말했다.