▲ 출처= National Federation of Blind

전 세계 월 사용자 20억명을 자랑하는 세계 최대의 SNS인 페이스북도 시각 장애인에게는 그다지 좋은 것이 아니었다.

그러나 페이스북이 시각 장애인들의 페이스북 경험을 개선하기 위해 인공 지능을 채택함으로써, 시각 장애인들도 춤을 추거나 자전거를 타는 친구들의 사진을 설명해 주는 오디오 메시지를 들을 수 있게 됐다.

그렇게 할 수 있기 위해 페이스북의 알고리즘은 화면에 무엇이 보이고 있는지 설명하는 법을 배워야 했다.

이런 프로젝트를 가능하게 만드는 비밀 원천은 인공 지능이다. 인공 지능은 언어를 번역하는 일에서부터 사람의 말을 이해하고 질병을 식별하는 일까지 거의 모든 일을 할 수 있다. 하지만 인공 지능의 발전이 문제가 전혀 없는 것은 아니다.

때로는 인공 지능이, 자신을 훈련시킨 인간의 편견이나 통찰력을 포함한 인간 본성(human element)을 뛰어 넘어 놀라운 방식으로 표출되기도 한다. 예를 들어 마이크로소프트의 테이(Tay)라는 로봇은, 유대인과 페미니스트에 대한 공격을 트윗하면서 분노를 표출하기도 했다.

페이스북의 인공 지능 엔지니어 다리오 가르시아는, 사진에서 무슨 일이 벌어지고 있는지를 확인하고 시각 장애인을 위해 이를 큰 소리로 읽도록 하는 프로젝트를 이끌고 있다.

"잘못 계산하면 전혀 엉뚱한 답이 나올 수 있습니다. 우리 프로젝트가 잘못 계산하면 누군가 죽을 수도 있는 자율 주행 차량과 관련된 것은 아니지만, 알고리즘이 잘못되었다는 것을 분명히 알지 못하는 사람들에게 잘못된 경험을 줄 수도 있습니다."

가르시아 팀은 사람들을 찍은 13만 개의 공개 이미지 샘플을 수집했고, ‘주석 작성자’라고 불리는 직원들이 각 사진에 대해 한 줄 짜리 설명을 썼다. 이 이미지 설명들이 자전거나 말을 타는 사람의 사진이 어떻게 보이는지를 AI에 보여주는 보기가 되었다.

그러다가 팀이 까다로운 질문에 직면했다. 사진에 사람의 신체 일부만 등장하는 경우, 가르시아와 주석 작성자들은 그것을 어떻게 설명해야 할 지를 토론해야 했다.

"대부분의 사람들은 그 신체 부위가 현재 어떻게 정의되고 있는지에 대해서만 집착하게 마련이지요.”

그룹의 결론은 수십억 개의 사진을 어떻게 이해해야 하는지에 대해 영향을 미쳤다. 시간이 지남에 따라 알고리즘은 사진에서 일어나고 있는 일을 파악하고 자체 캡션을 개발했다.  자막 작성을 테스트해 본 후 일부 이미지는 실수를 수정하기 위해 라벨을 다시 붙였다. 인공 지능도 그런 수정 과정을 통해 학습하면서 예측 능력을 강화 시켰다. 가르시아는 이 과정을 선순환이라고 불렀다.

2016년 4월 처음 이 시스템을 시작했을 때, 그것은 단지 사물과 사람을 식별하는 정도였지만, 그 이후 계속 업데이트되면서 자체 캡션에서 12가지의 구분된 동작을 식별할 수 있게 됐다.

▲ 출처= technomarketinginc.com

이 기능을 사용하려면 시각 장애인은, 음성 합성기나 점자 디스플레이를 사용해 시각 장애자를 돕는 소프트웨어인 스크린 리더(screen-reader)로 페이스북에 접속해 이미지에 집중해야 한다.

물론 아직 개선의 여지는 많다. 전미 맹인 연맹(National Federation of Blind)은 맹인들이 자신의 사진을 접속하기 원하는 페이스북 사용자들은 이 서비스의 한계를 감안해 상세한 자막을 포함해 줄 것을 당부했다.

이 프로젝트에 기여한 페이스북의 시각 장애인 매트 킹은 오늘날의 인공 지능 시스템을, 앞을 보지 못하는 사람들에게 책을 읽어주던 1980년대의 기계와 비교한다. 그 기계는 크기가 세탁기만 했고 좀 멋을 부린 서체는 읽지 못했으며, 기계가 읽을 책의 페이지가 어떤 낙서도 되어 있지 않아야 했다.

"인공 지능은, 모든 사람들이 가장 자연스럽게 느끼고 누구도 소외시키지 않는 방식으로 의사 소통을 할 수 있는 세계로 가는 길을 만들어 내고 있습니다.”

페이스북이 이런 진전을 이루기까지는 회사내 인공지능 연구소의 얀 레쿤 소장의 도움을 많이 받았다. 2013년 페이스북에 합류했고 뉴욕 대학의 교수이기도 한 레쿤은 인공 지능 분야에서 권위자 중 한 사람이다. 그는 은행과 ATM에서 수표에 표시된 숫자를 읽는 데 수 년 간 사용돼 온 인공 지능 기법인 콘볼루션 신경망(Convolutional Neural Network, CNN; 하나의 이미지를 한 번에 학습시키는 것이 아니고 필터를 통해 부분 부분들을 하나씩 스캔하여 그것에 대한 값을 찾아내면서 학습시키는 방법)을 개발한 것으로 유명하다.

그러나 이러한 발전에도 불구하고 레쿤은 인공 지능에 여전히 한계가 있음을 알고 있다. 프랑스인인 레쿤의 부인은 음성인식 앱을 사용할 수 없다. 음성 인식 앱이 그녀의 강한 프랑스어 억양을 제대로 이해하지 못하기 때문이다.

"프랑스 사람들의 억양으로 영어를 사용하는 사람들은 많지 않습니다. 이것은 개발자들이 프랑스 억양을 싫어 해서가 아닙니다. 단지 데이터가 많지 않기 때문이지요.”