정치판에선 녹취록 이야기가 심심치 않게 나온다. 전화 도청이나 대화 녹음 등은 사건을 이해하는 중요한 단서가 되긴 한다. 그러나 모든 디지털 자료는 위조가 가능하다는 점에서 보면 다른 물적 증거 없이 녹취록이든 사진이든 심지어 영상물까지도 범죄의 결정적 증거로 활용할 수 없는 세상이 되었다.

컴퓨터 음성합성기술은 이미 오래된 기술이다. 음성 합성(音聲合成, Speech Synthesis)은 말소리의 음파를 기계가 자동으로 만들어내는 기술이다. 컴퓨터 기계음으로 변환하는 기술은 이미 널리 활용되고 있으며 디지털 잡지를 읽어주는 소프트웨어도 있다. 이를 텍스트 음성변환(TTS, Text-to-Speech) 기술이라고 부른다. 스마트폰 길 안내 서비스를 특정 지역 사투리나 만화영화 캐릭터의 성우 음성으로 제공하는 앱도 있다. 특정인의 말소리를 녹음해 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력했다가 필요한 음성 단위만을 조합해서 인위적인 문장을 원하는 말소리로 만들어낼 수 있다. 30개 국어의 문장을 음성으로 읽어주며 생성된 음성을 WAV, MP3, MP4, OGG 또는 WMA 파일로 저장해주는 소프트웨어도 공개되어 있다.

 

문장을 읽어주는 소프트웨어가 발달해 있다

음성합성기술은 음성 인식기술과 함께 자동번역기, 로봇제조 기술 등 여러 곳에서 다양하게 쓰이고 있다. 초창기엔 녹음 환경이 일정한 상태에서 녹음된 수백시간의 데이터가 필요했지만 지금은 인공지능 기술이 발달해서 한두 시간 분량의 음성데이터만 가지고도 충분히 음색과 어투를 흉내 낼 수 있다. 물론 국내 기업들도 음성을 알아듣는 수준에 머물지 않고 음성합성으로 사용자의 질문에 대화로 응답하는 서비스가 활발해지고 있다. 중국의 인터넷 기업인 바이두(Baidu)는 최근 한 학회에서 전 세계 사람들의 수천가지 음색을 모방해낼 수 있는 음성합성시스템을 발표했다. 딥보이스(Deep Voice)라 이름을 붙인 이 소프트웨어는 특정인의 음성을 담은 30분 정도의 데이터만 있으면 완벽하게 그 사람의 목소리로 모든 상황에 맞게 대화를 위조할 수 있다고 했다. 이젠 스마트폰 음성을 자신이 좋아하는 가수나 탤런트 혹은 정치인의 음성으로 맞춤 서비스를 받을 수 있는 수준까지 발전했다. 인공지능 기술이 좀 더 발달하게 되면 스마트폰으로 녹음한 특정인의 대화 내용을 다른 사람의 음성으로 대체할 수 있는 가능성이 높다. 다시 말하면 문장을 읽어주는 수준에 멈추지 않고 음성인식을 통해 말하는 사람을 바꿔치기하는 조작이 가능하다는 의미이다. 이런 조작이 만약 범죄사건과 관련된다면 증거 조작이나 범인을 바꿔치기하는 용도로 악용되는 것이다. 국내 기술진이 만들지 않아도 해외에서 만들어진 소프트웨어가 국내에 유포될 수 있다.

가짜 이미지 생성 소프트웨어도 범람하고 있다. 스마트폰 앱 중엔 자신의 사진을 미래의 늙은 모습으로 전환하거나 젊은 시절 모습으로 바꿔 주는 앱들이 있다. 자신의 모습에 유명 배우의 모습을 합성할 수도 있다. 스마트폰 앱 중엔 사진을 화가의 그림으로 전환해주는 프리스마(Prisma)란 앱도 있다. 캘리포니아주 샌프란시스코의 비영리 단체인 Open-AI의 컴퓨터 과학자인 이안 굿펠로우(Ian Goodfellow)가 창안한 갠(GAN, Generative Adversarial Network) 기술이 최근 이미지 전환기술로 크게 각광받고 있다. 갠을 “대립쌍 구조를 사용하는 생성모델”이라고 번역한 사람도 있다. 서로 대립하는 두 개의 네트워크를 만들고 대립 과정에서 훈련하는 목표를 자동으로 생성하도록 학습시키는 구조이다. 기계학습이란 통상 사람이 태그를 달아주는 방식으로 학습결과가 맞았는지 확인해주는 데 반해 갠 기법은 사람의 개입 없이도 컴퓨터가 스스로 목표 이미지와 비교해서 생성한 이미지를 반복해서 평가하고 수정하는 알고리즘이다. 특히 흥미로운 점은 대립쌍 개념을 도입해서 서로 양측이 충돌하면서 발생하는 차이점을 수정해 간다는 점이다. 이안 굿펠로우는 대립쌍을 설명하면서 화폐 위조범(생성자 G)을 사례로 들었다. 화폐 위조범이 새로운 위폐를 만들어내면 은행원(감별자 D)은 그 위폐를 구분해내는 감식법이 더 발달하게 된다는 설명이다. 즉 위폐범의 위조 기술과 은행원의 감식기술이 서로 자극하면서 발전을 거듭하면 결국 위조화폐는 진짜 화폐와 같은 수준에 이르게 된다는 설명이다. 수학 같이 명확한 답이 없지만 확률적으로 목표와 근사한지를 끊임없이 확인하면서 이미지를 변환해 가면 결국엔 위폐일 확률과 진짜 화폐일 확률이 각기 0.5가 된다고 한다. 완벽한 위폐가 탄생한 셈이다.

 

가상의 이미지와 동영상을 위조해낼 수 있다

이제 컴퓨터 과학자들은 자신이 상상하는 모습을 모두 이미지로 그려낼 수 있는 경지에 도달했다. 어설픈 그림이 아니고 실제 촬영된 사진처럼 실감난 이미지를 만들어낸다. 학자들은 이 같은 이미지 생성 시스템은 인공지능 신경망이 세상을 해석하는 통찰력을 제공해준다고 여긴다. 비록 컴퓨터가 어떤 원리로 이미지를 저장하고 해석하는지 명확하지 않더라도 컴퓨터가 생성해내는 이미지는 실제 세상에서도 통할 수 있다는 의미이다. 천문학자들은 우주의 이미지를 직접 은하수에 방문해서 사진 찍듯이 그려내고 있으며 화산 폭발 장면을 실감나게 사진으로 표현해낸다. 인체의 DNA가 어떻게 작동하는지 또 단백질이 어떻게 반응하는지를 직접 촬영한 사진처럼 표현해낸다. 그럴듯한 이미지들과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득당할 수밖에 없다. 지금 갠 기술을 사용하면 디지털 위조품 제작이 가능해진다.

매주 새로운 갠(GAN) 논문들이 쏟아져 나오고 있다. 2014년에 처음 등장한 이 기법과 관련된 논문 수가 기하급수적으로 증가해서 최근에는 190편 이상이 보고되고 있다. 전문가들도 모두 추적하기 힘들 정도로 다양한 응용기법들이 등장하고 있다. 그 이름도 다양하다. 3D-GAN, 3D-IWGAN, 3D-RecGAN, AC-GAN, AdaGAN, AE-GAN, AffGAN, AL-GAN, AlighGAN, AM-GAN, cycle-GAN 등 딥헌트(Deephunt)의 아비나쉬 힌두푸르(Avinash Hindupur)에 의하면 서로 다른 기법의 이름만 해도 200여개에 이른다. GAN으로부터 촉발된 다양한 기법들이 개발되고 있다.

 

인공지능은 원하는 이미지 형태와 색상을 모두 바꿀 수 있다

그중에서 최근에 주목받는 사이클 갠(Cycle-GAN)법을 소개하고자 한다. 이 방법은 캘리포니아 버클리 인공지능연구실의 주준얀(Jun-Yan Zhu)과 박태성(Taesung Park) 박사과정 학생이 주축으로 개발한 기법이다. 언론에선 스마트폰 앱 프리스마와 반대로 화가의 그림을 입력하면 사진이미지로 바꿔주는 기술이 등장했다고 주목했다. 갠 기법이 이미지·이미지 변환에서 대립쌍을 놓고 훈련시키지만 많은 경우에선 쌍으로 훈련시킬 데이터가 없는 경우가 있다. 이 경우 원래 도메인 X에서 목표 도메인 Y까지 대립쌍 없이 이미지 변환을 학습하는 방법이다. X를 Y로 변환하는 게 목표이므로 X의 변화된 모습이 Y의 모습과 구분할 수 없을 때까지 차이점을 없애는 방향으로 X모습을 바꿔간다. 즉, X를 Y처럼 변환한 다음에 다시 원래의 X모습으로 되돌려 주면 원래 X모습과 한 번 Y로 변환되었다가 되돌려진 되돌림 X의 차이점이 디지털 데이터상에 나타나게 된다. 이 차이점을 없애는 방향으로 다음 두 번째 Y로 변환을 시도하고 다시 두 번째 되돌림 X와 원래 X의 차이점을 분석하고 다시 세 번째 Y를 그려보고 세 번째 되돌림 X를 그려보면 데이터의 차이점이 점차 줄어들게 될 것이다. 이런 식으로 되돌림 X와 원래 X의 차이가 존재하지 않는 순간이 되면 원래 X가 Y로 완벽하게 변환된 결과를 얻게 된다. 이렇게 완성된 변환 소프트웨어로 다른 X를 Y처럼 바꿀 수 있게 된다.

이 기술을 이용하면 모네(Monet), 반 고흐(Van Gogh), 세잔느(Cezanne) 등 유명 화가의 작품들을 모두 실제 사진처럼 변환할 수 있다. 반대로 풍경 사진을 이들 화가들이 그린 작품들로 바꿀 수도 있다. 뿐만 아니라 나무에 매달린 사과를 오렌지로 바꿀 수 있고, 들판을 뛰어가는 말을 얼룩말로 바꿀 수도 있다. 여름철에 찍은 풍경화를 겨울 풍경으로 바꾸는 일도 척척 해낸다. 스마트폰 사진을 고급사진기로 찍듯이 피사체만 강조하고 주변을 흐리게 아웃포커싱한 사진으로 바꿀 수도 있다. 사진이나 동영상을 유명 만화가의 만화로 재현할 수도 있다. 일단 훈련된 소프트웨어가 준비되면 유사한 상황에 적용할 수 있는 가상의 이미지도 만들 수 있다. 예를 들면 사람의 얼굴을 음식 접시에 그대로 투사한 음식물 사진도 만들 수 있다. 한 가지 이미지를 다른 종류의 이미지 특성을 덧씌워서 독특한 이미지를 창조해낼 수 있다.

사이클 갠 기법은 번역에도 활용할 수 있다. 온라인으로 영어·한국어 번역 시스템을 사용해서 영어 문장을 한국어로 번역하면 한 가지 한국어 문장이 얻어진다. 그런 다음에 번역된 한국어 문장을 다시 입력해 영어로 번역해주면 영어·한국어·영어 번역을 한 차례 돌아서 원 상태로 돌아간 셈이다. 이때 원래 영어 문장과 한 번 한국어로 번역되었다가 다시 영어로 번역된 문장을 비교하면 차이점이 존재할 수 있다. 이런 방식으로 차이점을 없애는 방향으로 학습을 반복하게 되면 나중엔 원래 영문과 되돌아 온 영문의 차이가 없는 같은 문장이 될 수 있다. 이런 방식으로 번역기술을 발전시킬 수 있다.

디지털 정보는 전환이 쉽기 때문에 응용분야가 넓고 효과도 크지만 악의로 활용하기 시작하면 세상이 혼란해질 수 있다. 예를 들면 가짜 동영상이나 이미지로 가짜 뉴스를 완벽하게 위조해낼 수 있다. 이미지는 물론이고 동영상 속의 주인공을 바꿔치기할 수도 있다. 보고 듣는 것이 모두 사실이 아닐 가능성이 점차 높아지고 있다.