2017년 5월 27일, 중국의 커제 9단을 이기고 공식 데뷔 이후 68승 1패(한국의 이세돌에게)의 기록을 남기고 은퇴한 인공지능 알파고의 지능지수는 얼마나 될까? 요즘 경쟁적으로 광고영상을 내보내는 인공지능 스피커 SKT의 ‘누구’와 KT의 ‘지니’의 지능지수는 얼마나 될까? 미국의 인공지능 스피커 ‘아마존 에코’과 ‘구글 홈’ 중 어느 쪽이 더 지능지수가 높을까? 혼자서 돌아다닐 것으로 기대되는 구글이나 테슬라의 자율주행자동차의 지능지수는? 인공지능 기술을 이용해 개발되는, 이러한 기계들의 지능지수를 측정할 수는 있는 것일까? 측정할 수 있다면 어떻게 측정해야 하며, 이들의 지능지수는 얼마나 될까?

누구나 한 번쯤 생각해봄직한 일일 것이나 필자는 현재까지 20여년 넘게 활동하고 있는 한국지능정보시스템학회의 교수들과 2004년 ‘PIQ(Product IQ’)라는 이름하에 기계들의 지능지수를 측정하기 위한 논의를 한 적이 있었다. 그때는 상품의 지능지수 외에도 조직이나 서비스의 지능지수를 측정해보자는 의견까지 있었고 학술대회에서 PIQ 특별 세션을 가지기도 했지만 이후로 더 이상 진행되지 못했다. 요즘같이 인공지능이 대중들 사이에도 회자되는 시대를 맞이해 이제 다시 ‘기계지능지수(MIQ: Machine IQ)라는 이름하에 기계들의 지능지수를 측정하기 위한 연구를 해보기로 했다.

사실 기계의 지능지수를 측정해보자는 아이디어는 전혀 새로운 것이 아니다. 2004년 당시의 조사에서도 기계의 지능지수를 측정하려는 다양한 시도를 확인할 수 있었다. 가장 지속적인 관련 연구는 미국국립표준기술연구소(NIST: National Institute of Standards and Technology)의 PerMIS(Performance Metrics for Intelligent Systems) 워크숍이다. 최근 2012년의 워크숍까지 확인할 수 있었다. 이곳에서 이루어진 다양한 연구가 있지만 주로 특정한 분야의 지능적 로봇에 대한 세부적인 성능을 평가하기 위한 것이다. 가령 재난구조로봇이라면 재난구조의 세부적인 상황을 설정하고 이에 대한 성능을 측정하는 것과 같은 방식으로 이루어진다. 또 다른 연구로는 MIT의 ‘키스멧’이나 혼다의 ‘아시모’와 같은 로봇을 대상으로, 인간에게 이뤄지는 지능지수 측정처럼 상대적인 지능지수를 측정한 연구가 있기도 했다. 인간의 지능지수는 주로 사용되는 편차지능검사의 경우 설정된 지능검사의 동일 나이대에 있어서 전체 평균을 100으로 하고 해당 피험자의 상대적인 위치를 측정하는 것이다. 100 이상이면 평균이상이고 IQ 176(16편차에서)이라면 100만분의 1이라는 의미가 된다. 로봇의 경우 상대적으로 비교할 수 있는 로봇의 숫자가 매우 적기 때문에 인간에게 적용되는 이러한 편차지능이 큰 의미를 가진다고 할 수 없을 뿐만 아니라 이 숫자가 로봇끼리는 의미가 있을지 몰라도 로봇과 같이 생활해야 하는 인간에게는 별다른 의미가 있을 수 없다.

다양한 방법으로 기계지능을 측정할 수 있겠지만 필자가 생각하는 기계지능지수는 제4차 산업혁명으로 지능적 기계들이 등장하는 시대를 맞이해 이들과 같이 살아가야 하는 사람들에게 도움이 될 수 있도록 인간의 지능지수를 기준으로 측정하자는 것이다. 물론 현재의 지능적 기계들이 몇몇 분야를 제외하고는 인간과 비교할 수 있는 능력을 가지지 못하고 있을 뿐만 아니라 인간에게 행해는 방식으로 측정할 수 없기 때문에 단서가 붙을 수밖에 없을 것이다. 좀 더 먼 미래에는 인간과 같은 지능검사를 수행할 수 있는 강인공지능 또는 일반인공지능이라고 부를 수 있는 인공지능이 등장하게 되겠지만 아직은 때가 아닌 듯하다. 그러므로 인간 지능지수에 맞춰 측정되는 기계지능지수의 단서는 해당 기능을 인간이 수행했을 때의 평균을 100으로 하는 측정 방법이다. 물론 현재 인간 지능지수의 검사 내용처럼 대체로 어휘‧상식으로 언어 이해를, 토막 짜기‧행렬추론‧퍼즐로 지각추론을, 숫자 및 수학문제로 작업 기억을, 같은 도형 찾기와 기호 쓰기로 처리속도를 측정하는 것이 아니고 해당 기계의 목적에 맞는 기능을 대상으로 해야 할 것이다. 자율주행자동차라면 인간이 자동차를 주행할 때 필요한 기능을 내용검사로 하고 해당 기능에 대한 인간의 평균 수행능력을 100으로 해서 그 기능에 대한 기계지능지수를 측정하는 것이다.

인간에게 행해지는 다양한 검사 내용도 서로 독립적인 것은 아니라는 것이 이미 알려진 사실이다. 어휘력 검사점수에서 높은 점수를 받은 사람은 다른 언어 능력 점수도 높을 것이라는 것이다. 이러한 주장은 지능을 모든 지적 활동에 포함되어 있는 단일한 추론 능력(일반요인)과 특정한 과제를 수행할 때 포함되는 여러 가지 구체적인 능력(특수 요인)으로 구성되어 있다고 보는 스피어만의 g요인설이다. 이러한 관점으로 행해지는 기계지능지수는 강인공지능 또는 일반인공지능의 연구의 새로운 연구방향과 g요인설의 확인에도 기여할 수 있을 것이다.

기계지능지수의 측정과 관련해 한 가지 더 언급해야 할 사항은 인간은 인간의 지능지수만 측정하는 것이 아니고 개인이나 집단의 도덕지수나 윤리지수도 측정한다는 것이다. 인공지능 윤리가 심각하게 논의되고 있는 이러한 시점에서는 기계지능지수뿐만 아니라 기계윤리지수(MMQ: Machine Moral Quotient)가 기계지능지수처럼 측정될 필요가 있고 이러한 기계윤리지수는 인공지능 기계의 우려를 다소간 완화할 수 있는 방안이 될 수 있을 것이다.

인간이 측정하는 모든 숫자는 이데올로기적인 해석이 필요하지만, 확실해 보이는 숫자를 좋아하는 인간의 특성상 기계지능지수나 기계윤리지수도 나름의 의미를 가질 수 있을 것으로 기대한다. 다만 앞으로 나타날 수많은 기계들을 평가하기 위해 기계사랑지수나 기계유머지수와 같은 것까지 등장하는 지수의 범람화가 되지 않기를 바란다.