드디어 기계의 도덕을 숫자로 측정할 수도 있다는 칼럼을 쓰게 되었다. 지난 칼럼 ‘기계지능지수’에서 영화 엔딩 크레딧의 쿠키처럼 언급했던 ‘기계도덕지수(MMQ, Machine Moral Quotient)’가 바로 그것이다. 그때 그 칼럼에서는 ‘기계윤리지수’라는 용어였고 ‘윤리’라는 용어가 더 적절하다는 인문학자들의 조언에도 불구하고 IQ는 지능지수, EQ는 감성지수, MQ는 도덕지수라는 세간의 용법에 따라 필자는 기계도덕지수라고 정했다.

기계지능지수도 당황스러울 수 있는 상황에서 기계도덕지수는 더욱 황당할 수도 있다. 하지만 현재 인공지능에 맹목적 낙관론과 냉소적 비관론이 범람하는 상황에서 인간과 인공지능 기계들의 공존에서 야기될 수 있는 최소한의 윤리적 문제점을 파악하고, 일정한 제도적인 안전장치로서 인공지능 기계의 도덕적 기능을 수치화할 수 있다면 모두에게 가이드라인이 될 수도 있다고 생각한다.

도덕은 지능과 상호배타적인 개념이라기보다는 일정 부분 보편적인 지능을 필요로 한다. 인공도덕행위자(Artificial Moral Agent)라는 이름으로 인공지능 실제적인 도덕적 사고를 하는 연구가 있기는 하지만, 현재 특정 분야에 제한적인 기능으로 만들어지는 인공지능 기계들이 보편적인 지능과 더불어 도덕적 추론을 수행하는 것은 아직 요원한 일이다. 그러므로 어떠한 내부적인 인공지능 기술을 사용하든 결과적으로 나타나는 행위를 보는 것만으로 이루지는, 일종의 도덕적 튜링테스트식으로 인공지능 기계의 도덕성을 측정하는 것은 현실적인 대안이 될 수 있을 것이다.

기계도덕지수의 측정 대상인 인공지능 기계는 자율적인 의사결정을 하는 시스템으로서 자율주행차나 인공지능 스피커, 로봇처럼 실체적인 기계만이 아니라 인사채용 시스템이나 자동화된 정보처리 시스템도 포함될 수 있다. 이미 많은 정보처리 시스템들이 자동화되어 있고 그러한 시스템에 사람의 일들이 영향을 받고 있지만 인공지능 기술이 이러한 정보처리 시스템에 도입되면서 과거와는 양상이 달라졌다.

인공지능 기술이 도입되기 전의 정보 시스템은 모든 정보처리의 의사결정 과정이 인간들의 설계에 의해 이루어지기 때문에 정보 시스템은 단순히 그 과정을 재현하는 것이었다. 하지만 인공지능 기술이 도입된 정보 시스템은 기계학습을 통해 정보처리의 의사결정 과정을 스스로 구성하기 때문에 자율적인 의사결정을 한다고 할 수 있다. 소프트뱅크를 비롯한 몇몇 회사들은 이미 인공지능 기계학습을 통해 직원을 채용하고 있다.

이러한 직원 채용의 문제는 사기업의 논리에 의해 이루어지지만 이러한 채용 과정에서 성별 또는 인종적 차별이 지양되어야 하는 윤리적인 판단요소들이 존재한다. 앞으로 모든 사적, 공적 영역의 정보처리 시스템에 자율적인 의사결정을 하는 인공지능 기술이 도입될 것으로 예상되기 때문에 다양한 윤리적인 의사결정 문제가 쟁점화될 것으로 보인다. 기계도덕지수 개발은 이러한 문제에 대처하기 위한 한 방안이 될 수 있을 것이다.

그렇다면 기계의 도덕성을 측정하기 위한 가능한 방안은? 도덕적 튜링 테스트를 하는 것이다. 앨런 튜링은 1950년에 철학 저널 <Mind>에 발표한 논문에서, 기계가 지능적이라고 간주할 수 있는 조건을 언급했다. “기계가 생각할 수 있는가?” 그리고 “기계가 생각할 수 있다면 그것을 어떻게 표현해야 하는가?”라는 핵심 질문에 그는 “기계로부터의 반응을 인간과 구별할 수 없다면 기계는 사고할 수 있는 것”이라고 주장했다. “기계는 도덕적인가?” 그리고 “기계가 도덕적일 수 있다면 그것을 어떻게 표현해야 하는가?”라는 핵심 질문에 필자는 “기계로부터의 반응을 인간과 구별할 수 없다면 기계는 도덕적일 수 있는 것”이라고 주장하는 것이다.

인공지능의 윤리 문제가 언급될 때 빠지지 않는 것이 자율주행자동차가 탑승자를 보호하기 위해서 불가피하게 다수의 행인을 희생시킬 수밖에 없는 상황과 같은 도덕적 딜레마 상황이다. 하지만 이러한 도덕적 딜레마 속에서의 기계의 도덕성 판단은 기계의 도덕지수 측정과 1차적으로 무관하다. 자율주행자동차가 탑승자를 보호하기 위해 행인을 희생시켜야 하는가 아니면 행인을 보호하기 위해 탑승자를 희생시켜야 하는가와 같은 도덕적 딜레마 상황에서의 행위가 도덕적으로 어떠해야 하는지에 대해서는 윤리학자들을 포함한 사람들의 도덕적 가치판단 자체에 명확한 합의가 없는 상황이다.

이것은 곧 도덕적인 사람들의 행위가 그 상황 속에서 서로 다를 수 있음을 의미할 수 있는데, 이럴 경우에 그와 같은 상황에서의 기계의 행위는 어느 경우이든지 도덕적이라고 판단될 수도 있고 비도덕적이라고 판단될 수도 있다. 즉 도덕성을 측정할 수 없는 것이다. 기계도덕지수의 개발은 인간이 해결할 수 없는 도덕적 문제를 기계가 해결하도록 요구하는 문제가 결코 아니다. 오히려 인간이 다른 인간을 도덕적으로 평가하는 방식을 기계에도 적용할 수 있도록 양적인 측정도구를 만들어보고자 하는 것이다.

그렇다 하더라도 기계도덕지수는 기계지능지수에서 이루어지고 있는 방법을 적용하기에는 곤란한 근본적인 차이가 있다. 지능은 다양한 범주로 주어진 문제를 빠르고 많이 해결하는 것으로 점수화해 지능의 정도를 산출할 수 있다. 하지만 도덕은 주어진 다양한 범주로 주어진 문제(상황)에 행하는 동작(행동)에 의해 도덕적인지 아닌지, 양가적으로 판명되기 때문에 도덕의 정도를 산출할 수는 없다.

기계도덕지수의 측정은 인간에게 행해지는 추상적인 도덕적 판단의 설문조사가 아니라 해당 기계의 목적에 맞는 도덕적 기능을 대상으로 해야 할 것이다. 자율주행차라면 인간이 자동차를 주행할 때 필요한 윤리적 기능을 내용으로 하고 해당 기능에 대한 인간의 평균 수행능력을 100으로 하고 그 기능에 대한 기계도덕지수를 측정하는 것이다. ‘기계도덕지수’ 측정전략은 자율적인 의사결정을 하는 것으로 여겨지는 기계를 대상으로 자율주행 자동차, 인공지능 스피커, 인공지능 직원채용 시스템 등의 ‘제품군별로 해당 제품이 당면할 수 있는 윤리적 상황을 목록’으로 해당 상황에서 인간이 취해야 하는 ‘인간의 윤리적 행위를 기준’으로 측정한다.

기계도덕지수는 윤리나 도덕이 공존하는 존재들의 규범이라는 점에서나 기계를 만들고 사용하는 인간을 위한 것이고 인간 수준과 비교할 수 있는 측정이어야 하기 때문이다. 이러한 기계도덕지수의 제정과 운영은 관련 공학자와 윤리학자, 그리고 시민단체의 대표들로 이루어진 공신력 있는 기관으로 조직되고 운영되어야 하며 모든 과정이 공개되고 논의될 수 있어야 한다.

사족으로 지난 기계지능지수 칼럼에서 온갖 기계사랑지수나 기계유머지수와 같은 것까지 등장하는 지수의 범람화는 없어야 한다고 말했으나 ‘기계감성지수(MEQ, Machine Emotion Quotient)’는 의미가 있지 않을까 생각하면서 칼럼화를 구상해본다.