▲ 빅데이터 처리로 머신 러닝에 접근하는 방식으로는 "왜 이런 일이 일어 났을까?" 또는 "내가 다르게 행동했다면 어떻게 되었을까?" 같은 질문에 답할 수 없다.      출처= ALEX NABAUM

[이코노믹리뷰=홍석윤 기자] 컴퓨터 프로그램이 인공지능에 대한 길고 불안정한 여정에서 이제 갈피를 잡지 못하는 헷갈리는 지점에 이르렀다. 포커 게임을 하거나 군중 속에서 얼굴을 인식하는 일처럼, 한때 인간만이 할 수 있다고 생각했던 작업에서 컴퓨터는 인간을 능가한다. 그러나 한편으로는 유사한 기술을 사용하는 자율주행차량이 보행자나 기둥을 들이받는 사고를 내면서 그것들이 과연 믿을 만 한 것인지 의심스럽기도 하다.

컴퓨터의 급속한 발전과 함께 불의의 사고가 연달아 발생하면서, 우리는 지난 수십년 동안 인공 지능에서 중요한 한 가지 구성 요소를 간과했음을 알게 되었다. 바로 원인과 결과를 이해하는 것이다.

간단히 말하자면, 오늘날의 머신러닝 프로그램은 수탉이 해가 떠오를 때 우는지, 반대로 해가 질 때 우는지 알지 못한다는 것이다. 기계가 분석하는 데이터의 양에 관계없이, 기계는 인간이 직관적으로 무엇을 얻는지를 이해할 수 없다. 갓난아기 시절부터 우리는 우리의 경험을 원인과 결과로 구분해 왔다. “왜 이런 일이 일어났을까?” 또는 “내가 다르게 행동했다면 어떻게 되었을까?” 같은 질문은, 우리를 인간으로 만든 핵심적인 인지 발달(Cognitive Advances) 과정이지만, 지금까지 기계는 이것을 놓치고 있었다.

예를 들어 한 약국에서 ‘찰리’라는 머신러닝 프로그램에 가격 책정을 위탁하기로 결정했다고 가정해 보자. 이 프로그램은 매장의 기록을 검토한 결과 그동안 (과거의) 치약 가격 변동이 판매량과 상관관계가 없다고 보고 더 많은 수익 창출을 위해 가격 인상을 권장했다. 그런데 한 달 후, 치약의 판매가 치실, 쿠키 및 기타 품목과 함께 떨어졌다. 찰리는 어디서 잘못됐을까?

찰리는 이전의 (인간) 관리자가 경쟁이 있을 때에만 가격을 변동시켰다는 것을 이해하지 못했다. 찰리가 가격을 일방적으로 인상하자, 이 제품의 가격에 민감한 고객들은 다른 곳에서 치약을 산 것이다. 이 사례는 과거 데이터만으로는 원인을 알 수 없으며, 인과관계의 방향이 중요하다는 것을 보여주는 예다.

머신러닝 시스템은 데이터 패턴을 분석하는 데 놀라운 진전을 이루었다. 그러나 이것은 인공지능이 이룰 수 있는 가장 쉬운 일에 불과하다. 더 높은 목표를 이루기 위해서는 인과관계의 사다리(Ladder of Causation)가 필요하다. 이 사다리에는 세 가지 단계의 추론 과정이 있다.

첫 번째 단계는 연관성(Association, 聯關性)으로, 현재의 기계와 많은 동물을 위한 단계다. 이 단계에서 파블로프의 개들은 벨 소리와 음식을 연관시키는 법을 배웠다.

다음 단계는 개입(Intervention, 介入)이다. 벨을 울리거나 치약 가격을 올리면 무슨 일이 일어날까를 판단하는 것이다. 개입은 단순한 관찰과는 다르다. 일방적으로 가격을 올리는 것은 과거에 일어난 일을 살펴보는 것과는 다른 것이다.

마지막 단계는 조건법적 서술(Counterfactual)이다. 이는 결과를 상상해서 그것을 사람의 행동에 반영하고, (그렇게 하지 않을 경우의) 또 다른 시나리오를 평가하는 능력을 의미한다. 이 단계는 책임, 믿음, 비난, 자기 개선 등에 대해 평가하고 의사소통하기 위해 기계가 도달해야 하는 단계다. 자율운전차량에 이런 능력을 주었다고 상상해 보라. 그렇다면 사고 후, 차량의 CPU는 다음과 같은 질문했을 것이다.

“내가 술 취한 보행자에게 경적을 울리지 않았다면 무슨 일이 일어났을까요?”

▲ 인공지능이 더 높은 단계에 도달하기 위해서는 끝없이 데이터를 추가하는 대신, 근본적인 인과 요인의 모델, 즉 원인과 결과의 수학이 필요하다.      출처= ScienceAlert

더 높은 단계에 도달하기 위해서는 끝없이 데이터를 추가하는 대신, 근본적인 인과 요인의 모델, 즉 원인과 결과의 수학이 필요하다. 그 단순한 요소는, 이를테면 “술은 사람들의 판단을 저해하고, 그로 인해 사람들을 예상치 못한 방식으로 움직이게 만든다”고 판단하는 인지 능력이다.

오늘날에는 과학자들이 ‘인과관계 다이어그램’이라고 부르는 것을 사용해 이런 인지 능력을 인코딩할 수 있다. 여기에서 화살표는 일련의 가능한 원인을 나타낸다.

술→판단력 저하→탈선 행동.

이러한 다이어그램은 예쁜 그림일 뿐 아니라, 자동차가 경적을 울리면 보행자가 다르게 반응할 것이라는 것을 예측할 수 있게 해주는 알고리즘의 시작을 구성한다. 이 다이어그램은 또 자동차에게 그 과정을 설명하도록 ‘요구’할 수 있는 가능성을 제시해 준다. 즉, “자동차야, 너 왜 경적을 울렸니?”라고 물을 수 있다는 말이다.

현재의 머신러닝 시스템은 체스를 두는 것처럼 규칙을 어기지 않는 한정된 영역에서만 그런 높은 단계에 도달할 수 있다. 그 영역을 벗어나면 시스템은 무너지고 실수하기 쉽다. 그러나 인과 관계 모델을 사용하면, 기계도 이전에 시도하지 않은 행동의 결과를 예측하고, 그것을 자신의 행동에 반영하며 새로운 상황에 따라 학습된 지식과 기술을 전환할 수 있는 것이다.

인과관계 모델은 1980년대 인공 지능에 대한 연구에서 발전돼, 높은 단계에서의 계산이 가능해지고 통계적 역설을 풀어내면서 보건학 및 사회 과학으로 확산되었다. 오늘날 머신러닝 연구원들이 설명을 보다 잘하는 반응적 시스템을 연구함에 따라 인과관계 모델은 이제 다시 새로운 시작을 맞이하게 되었다. 한 예로, 구글과 페이스북의 과학자들은 온라인 광고를 분석해 그 광고가 소비자들의 제품 구매에 어떤 차이를 만들어 냈는지 판단하기 위해 인과관계 모델을 연구하고 있다. 바로 조건법적 질문을 사용하는 것이다(광고를 하지 않았다면 결과가 어떻게 되었을까?).

인과관계 모델 연구는 이제 시작이다. 연구원들이 데이터를 인과 추론에 결합하면, AI 연구에 작은 혁명이 일어날 것이다. AI는 자신이 전에 본 적이 없는 행동을 계획하고, 자신이 배운 것을 새로운 상황에 적용할 것이다. 또 원인과 결과에 대해 인간 언어로 자신의 행동을 설명할 수 있을 것이다.

본 글은 UCLA의 컴퓨터과학 교수이자, ‘확률론적 인과 추론 연구’로 튜링상(Turing Award, 수학자인 앨런 튜링을 기리는 상으로, 컴퓨터 과학에 업적을 남긴 사람을 선정하여 수상함)을 수상한 쥬디 펄과 동료 수학자 다나 매킨지가 월스트리트저널(WSJ)에 기고한 글을 전제한 것임.