▲ 머신러닝 기술은 누가 온라인에서 폭력적인 글이나 이미지를 업로드하는지, 그리고 그것이 주변의 사회나 문화 환경에서 얼마나 중요한 지 같은 것들을 이해하는 데에는 능숙하지 못하다.   출처= CNN 캡처

[이코노믹리뷰=홍석윤 기자] 인공지능(AI)은 사진 속의 사람들을 식별할 수 있고, 당신이 넷플릭스에서 다음에 어떤 TV 시리즈롤 볼 것인지도 찾을 수 있으며, 심지어 자동차도 운전할 수 있다.

그러나 지난주 뉴질랜드에서 테러 용의자들이 페이스북에 그들의 대량 살인 동영상을 생중계했을 때 이 기술은 아무런 도움이 되지 못했다. 이 끔찍한 방송은 뉴질랜드 경찰이 페이스북에 이 사실을 보고할 때까지 적어도 17분 동안 계속되었다. 페이스북이 이 동영상을 추적해 삭제할 때까지 동영상과 그에 대한 관련 게시물은 삽시간에 소셜미디어를 타고 온 세상에 퍼졌다.

주요 소셜네트워크 기업들이, 사용자들의 상태 업데이트, 사진, 동영상 업로드의 수위를 조절하기 위해 이미 사용하고 있는 AI는 왜 정작 그런 폭력 동영상이 나타나자 마자 신속하게 제거하도록 배치될 수 없는 것일까?

가장 큰 이유는, 그것이 혐오스러운 글이든 포르노든, 폭력적인 이미지나 비디오든 간에, 인공지능은 여전히 온라인에서 그런 반사회적 콘텐츠를 발견하는 데 능숙하지 못하기 때문이다. 인간은 상태 업데이트나 유튜브의 맥락을 파악하는 데에 뛰어나지만, 그런 맥락을 파악하는 것이 AI에게는 아직 어려운 일이다.

최근 몇 년 사이 AI가 크게 개선되면서 페이스북, 트위터, 유튜브, 텀블러 같은 회사들은 사용자들이 올린 콘텐츠를 감시하기 위해 인간 감시원과 AI를 결합시키고 있다.

엄청난 양의 게시물

그러나 이런 사이트들에 매일 엄청난 양의 게시물이 올라오기 때문에, 사람과 AI가 힘을 합쳐도 그 양을 따라가기가 어렵다. AI가 온라인에서 그런 혐오성이나 폭력적 게시물을 안정적으로 탐지하기에는 아직 갈 길이 멀다.

AI 기술 회사들이 그런 폭력적인 콘텐츠를 찾기 위해 사용하는 머신러닝이라는 기술이 데이터 영역에서 특정 패턴을 발견하는 방법을 알아낸다. 머신러닝 기술은 특정한 맥락에서 모욕적인 언어나 비디오, 사진을 식별할 수 있다. 이런 게시물들이 AI를 훈련시키는데 사용된 패턴을 따르기 때문이다. 예를 들어, 머신러닝 알고리즘에게 총 같은 살상 무기나 비방하는 문서의 이미지를 여러 차례 보여주며 훈련시키면, 알고리즘은 다른 이미지와 텍스트로부터 자신이 배운 이미지나 문서를 발견하는 법을 배우는 것이다.

그러나 AI는, 누가 그런 글을 쓰고 이미지를 업로드하는지, 그리고 그것이 주변의 사회나 문화 환경에서 얼마나 중요한 지 같은 것들을 이해하는 데에는 능숙하지 못하다.

▲ 지난주 뉴질랜드에서 테러 용의자들이 페이스북에 그들의 대량 살인 동영상을 생중계했을 때 AI 기술은 아무런 도움이 되지 못했다.  출처= YouTube

특히 폭력을 자극하는 언어에 관해서는 단어보다는 문맥이 ‘매우 중요하다’고 오리건대학교 (University of Oregon)에서 AI와 머신러닝을 연구하는 대니얼 로우드 교수는 지적한다.

어떤 글들은 표면적으로는 매우 폭력적으로 보이지만 실제로는 폭력을 반대하는 풍자성 글일 수도 있다. 또 어떤 글들은 온유한 글처럼 보이지만, 최근 뉴스나 그런 글들이 쓰여진 지역 문화를 잘 알고 있는 사람들이 보면 위험한 것임을 알 수 있다.

로우드 교수는 "몇 마디 단어가 갖는 영향력은 상당 부분 문화적 맥락에 달려 있다"고 지적하면서, 인간 감시자들이 여전히 소셜 네트워크상에서 이런 문제를 분석하기 위해 애쓰고 있는 것은 AI의 이 같은 부족함을 보완하기 위해서라고 지적했다.

AI에겐 폭력 식별 자체가 어려워

또 다른 문제는, 비록 폭력 비디오를 본다 하더라도, 훈련된 기계는 말할 것도 없고 인간조차도 그것을 발견해서 그에 대해 어떻게 하는 것이 최선인지 판단하는 것이 항상 그렇게 간단하지는 않다는 것이다. 그런 동영상에서 무기는 화면에 나타나지 않을 수도 있고, 폭력적으로 보이는 것이 사실이 아니라 시뮬레이션일 수도 있기 때문이다.

게다가 조명이나 배경 이미지와 같은 요소들이 은 컴퓨터를 방해할 수 있다.

소셜미디어 콘텐츠 검열을 연구하는 UCLA의 새라 T. 로버츠 교수는 "특히 비디오에서 폭력을 발견하기 위해 AI를 사용하는 것 자체가 컴퓨터적으로 어려운 작업"이라고 말했다.

"인공지능에게는, 초당 몇 개의 프레임이 돌아가느냐 같은 매체의 복잡성이나 상황의 특수성도 이해하기 쉽지 않을 뿐 아니라, 그 동영상을 어떤 의미로 인식하느냐 하는 것도 매우 어렵습니다.”

로버츠 교수는 “문제는 AI가 단지 하나의 동영상에서 그런 의미를 인식하기도 어려운데, 소셜네트워크에 매일 수 없이 올라오는 동영상의 의미를 AI가 파악한다는 것은 더더욱 어렵다”고 설명했다. 예를 들어 유튜브에서 사용자들이 올리는 동영상의 분량은 분당 400시간 이상, 즉 하루에 57만 6000시간 분량 이상의 비디오가 업로드된다.

"소셜 미디어 회사들은 하루에만 수 십만 시간의 동영상을 다루면서 AI에게 그 많은 양을 식별하도록 원하고 있는 것입니다.”