최근 시카고에서 개최된 미국임상종양학회(American Society of Clinical Oncology)에서 IBM 왓슨 인공지능의 암치료 효과와 관련된 간략한 보고가 있었다. 인도 방갈로르(Bangalore)의 마니팔종합암센터(Manipal Comprehensive Cancer Center) 측이 분석한 바에 의하면 왓슨과 의사 간의 진단의견 일치율이 112명의 폐암 환자에 대해서 96.4%, 126명의 결장암에 대해 81%, 124명의 직장암에 대해 92.7%로 나타났다고 발표했다. IBM왓슨은 자연어 처리와 기계학습을 통해서 의학전문 문헌, 치료 지침, 의료 기록, 이미징, 실험실 및 병리학 보고서를 기반으로 데이터를 분류하고 의미를 담아 환자의 증상을 진단하고 치료법을 권고해주는 기능을 가지고 있다. IBM은 이를 개발하기 위해서 미국 뉴욕의 메모리알 슬로안 케팅(Memorial Sloan Ketting) 암센터(MSKCC)에서 전문의들의 경험을 빌어서 타당성을 학습시켰다. 왓슨 인공지능은 MSKCC에서 주로 유방암, 결장암, 직장암, 폐암에 대해서 병적기록을 학습했으며 환자의 병력과 각종 진단기록들을 입력해주면 치료법을 권고해준다. 이 암 진단 및 치료 시 고려사항과 권장사항 범주가 인도 병원의 종양전문 의료진의 의견과 일치했다고 발표한 것이다. 왓슨 인공지능이 암 진료에 있어서 어느 정도 객관성을 확보했다는 증거로 삼는 주장이다. IBM 측도 인도 병원의 결과는 예상했던 수준이며 전문 의료진과의 차이점이 있다는 점이 바로 왓슨의 존재가치이며 인간 의료진이 미처 파악하지 못한 점을 보완하기 위해서 왓슨을 도입해야 한다고 주장한다.

 

인공지능의 진단을 맹신하면 안 된다

그러나 IBM 측이 <비즈니스 인사이드>(Business Inside)에 밝힌 바에 따르면 한국 병원에서는 인공지능 왓슨이 위암 환자로 판정한 185명에 대해서 의료진과 의견이 일치한 경우가 49%에 불과했다고 한다. IBM왓슨 측이 이런 데이터를 공개한 것은 이번이 처음이다. 이렇게 커다란 의견 차이가 발생한 이유는 한국인에게 많이 발생하는 위암 환자에 대해선 왓슨이 MSKCC에서 충분한 학습 기회가 없었음을 의미한다. 또한 질병에 따라선 인공지능의 수준이 의사를 대체할 만한 수준에 전혀 미치지 못했음을 알려주며 인공지능의 진단을 맹신하면 안 된다는 사실을 일깨워준다. 설령 암에 걸렸다 해도 인공지능의 처방을 따르면 종양 전문의가 제시한 치료법보다 환자의 삶을 연장하는 데 도움이 될 것이란 보장도 없다. 인공지능이 전문 의료진의 경험을 뛰어넘어 신뢰할 수 있는 환자 치료법을 내줄 수 있으려면 아직도 많은 데이터의 축적이 필요하며 많은 시간이 필요함을 의미한다.

IBM은 왓슨의 기계학습에 대해서 과신하지만 기계가 스마트해지려면 충분한 양의 데이터로 학습해서 검증을 받은 후에야 그런 평가가 가능하다는 점을 간과할 수 없다. 특히 건강관리 영역은 기계학습 기술을 활용하려는 시도가 매우 많은 분야다. CB인사이트가 조사한 바에 다르면 2013년 이후 106개 스타트업들이 기계학습기술을 건강관리 분야에 활용하고 있다. 이들 기업들 중 어느 누구도 IBM 왓슨만큼 주목을 받지는 못한다. 인공지능을 활용한다는 점에서 의료건강부문에서 아직 왓슨의 경쟁상대는 없으며 현재 세계 55개 병원 및 보건기구들과 협력관계를 유지하고 있을 만큼 독보적인 존재다. 하지만 많은 사람들은 왓슨이 아직 성공을 거두고 있다고 믿지 않는다. 그 이유는 많은 질병의 경우에 데이터 발생량이 적을 뿐 아니라 구하기도 힘들다. 질병치료 효과를 충분히 학습할 만큼 데이터가 축적되지 않았고 특히 치료효과를 검증할 수 있는 시간도 절대적으로 부족하다. 이 문제는 왓슨만의 문제가 아니고 건강관리를 위해 기계학습을 활용하고자 하는 모든 경우에서도 마찬가지다. 의료데이터 부족으로 왓슨의 확산은 느려질 수밖에 없고 아직 의료분야에서는 구체적인 응용실적이 없는 구글이나 마이크로소프트의 경우는 더욱 치명적이다. 가장 좋은 방법은 대형 보건의료조직과 긴밀한 협조체제를 만들어 다양한 데이터를 장시간 동안 확보하는 길이다.

 

인공지능은 지능증강의 수단이다

IBM 측은 왓슨을 개발하면서 인공지능이란 표현 대신에 인지(Cognitive) 컴퓨팅이란 표현을 사용해 왔다. 인지컴퓨팅은 인간의 판단력을 강화시키는 도구로서 일종의 증강지능 역할을 한다. 컴퓨터가 의사결정을 하지 않고 다양한 가능성을 분석해서 인간에게 최적 조건을 자문해주는 역할을 기대한다. 따라서 판단의 책임은 인간이 지는 셈이다. 물론 인간의 지적능력이나 오감의 한계를 극복할 수 있도록 다양한 자료를 학습하고 현상을 분석하며 데이터를 근거로 합당하다고 판단되는 결과를 제시해 설득한다. 인간의 지능증강이라는 관점에서 보면 기계는 인간의 역할을 대체하는 것이 아니라 인간과 공생할 수 있는 최적조건을 찾아내야 한다. 즉, 인간과 기계의 역할이 서로 다르다는 점에서 시스템 설계를 시작해야 한다. 기계의 학습능력은 가용 데이터 및 자료의 고속 추적 및 분석 그리고 패턴 인식을 통한 예측기능 면에서 강하다. 인간은 직관력, 창의력, 감정이입, 문제의식, 의도, 가치설정, 비전, 리더십, 사회적 윤리 및 상식 면에서 강하다. 기계는 정해진 논리 면에 강하다면 인간은 비논리적이지만 상징적인 면이 강하다. 특히 추상적 개념의 의도, 윤리, 무형 가치를 담당해야 한다.

IBM 왓슨이 <제퍼디>(Jeopardy)라는 퀴즈 프로그램에서 역대 최고수들을 상대로 승리를 했다거나, 구글 딥마인드의 알파고가 최강의 프로바둑기사들을 물리쳤다고 해서 인공지능이 인간의 역할을 모두 대체할 수 있다는 주장은 잘못된 것이다. 인간과 기계의 공생모델은 컴퓨터가 무슨 일을 우선해야 하는지를 제대로 결정해주는 데 주력해야만 한다. 모든 일들은 컴퓨터가 처음에서 끝까지 도맡기엔 불가능한 부분이 너무 많다. 일이 정형화되어 있지도 않고 설령 정형화한다고 해도 수많은 학습과정에서 기계의 판단이 옳은지 검증을 반드시 거쳐야 하는데 일률적으로 성과를 평가할 만한 검증 기준이 존재하지 않는다. 어느 정도의 성과에 만족할지는 사람마다 기준이 다르기 때문이다. 아무리 계산이 빨라도 마지막 사소한 판단은 결국 사람의 몫인 셈이다. 그래서 중요하게 다룰 점은 인간이 컴퓨터를 효과적이고 적절하게 통제할 수 있도록 기계와의 상호작용, 통제방식, 인터페이스 즉 접속방식의 설계가 매우 중요하다. 특히 촉각적인 대응이 필요한 수술, 사이버 보안, 테러 방지, 전쟁 억제 등에 응용할 때는 인간의 통제력이 가장 중요한 요소이다.

 

인공지능의 확산을 가로막는 요인을 이해하려면 왓슨과 같은 기계학습 시스템이 어떻게 훈련을 받는지를 이해하면 쉽다. 방사선 촬영 이미지가 암을 나타내는 것이라고 단정을 하려면 내부처리 루틴을 지속적으로 재조명해 많은 사례들을 학습해 두어야 한다. 학습과정에선 영상판독 전문가가 어떤 때는 옳고 어떤 때는 틀린지를 판정해줘야 한다. 학습과정에서 다양한 사례들을 많이 다룰수록 기계적 판단의 정확도는 높아진다. 엑스레이에서 악성 종양을 확인하기 위해서 시스템을 훈련시키는 일은 비교적 간단하다. 웬만한 영상 전문가라면 쉽게 판정할 수 있으므로 많은 인력이 학습과정에 참여할 수 있다. 전문 의료진도 판정하기 어려운 문제는 별도의 전문적인 연구와 데이터 구축이 선행되어야 한다. 어떤 전문가도 진위를 가리지 못하는 문제를 왓슨과 같은 기계시스템이 학습으로 밝혀낼 수는 없는 일이다.

 

인공지능의 판정 결과도 차별화된다

그런데 바둑과 같이 승패가 뚜렷한 게임은 누구나 심판관 역할을 할 수 있다. 또 자율자동차가 인식한 도로 주변의 나무나 옹벽 그리고 신호등 들은 누구나 옳고 그름을 평가해줄 수 있다. 그래서 쉽게 기계학습이 가능하다. 그러나 의료분야와 같이 특수 분야에선 수십년간 해당 질병을 다뤄봤던 전문 의료진만이 기계학습 결과를 판정해줄 수 있다. 예를 들면 어떤 유전자 변형이 특정 질병과 관련성이 높다고 판정하려면 수천 건의 환자 기록이 필요하다. 그러나 환자의 질병기록과 유전자 기록이 조합되어 기록된 사례는 드물다. 대부분의 의료기록들이 특정한 형식을 갖추고 있지도 않고 아예 근거 자료가 없는 경우가 더 많다. 또 데이터가 여기저기 분산되어 있어서 연결하기도 어렵다. 그래서 의료진단과 치료를 자동화한다는 시도가 어렵다.

의료분야뿐만 아니라 인공지능을 활용해서 인간의 노고를 줄이고자 하는 모든 영역에서 똑같은 문제에 봉착하게 된다. 컴퓨터로 엄청난 양의 데이터 속에서 몇 가지 특수한 정보를 추출해내서 이것이 옳다고 적용하려면, 이미 어떤 전문가가 수작업으로 그런 사례를 수천 번 처리해 봐서 적용가치가 있다고 판정해줄 수 있어야만 자동화가 가능하다.

인공지능이 발달하면서 상당수의 일자리가 사라질 것을 우려한다. 인공지능의 본질은 인간을 대체하는 데 있지 않고 인간이 부족한 계산능력, 사고능력, 판단능력을 증강시켜 주는 도구이다. 주변 환경에서 발생하는 데이터를 자동학습해서 인간이 미처 감지하지 못한 현상이나 정보를 보완해주고 다음에 일어날 일을 예측해준다. 누구나 인공지능을 활용해서 상당한 수준까지 일처리를 자동으로 해낼 수 있다고 예상한다. 그러나 마지막 처리는 결국 인간의 몫이다. 최종단계에선 각자가 가진 전문성으로 업무를 마무리하거나, 각자의 예술성으로 작품을 완성하는 것이다. 업무의 품질이나 예술작품의 가치는 마지막 취급자의 역량에 달렸다. 그래서 인간의 역할을 재정립해야만 한다. 기계가 학습하는 영역은 모두가 일반적으로 판정할 수 있는 영역이라면 최종적인 마무리 영역은 최종 취급자의 재능과 총명함으로 차별화되는 단계다. 그런 미래의 역량을 각자의 분야에서 키워야만 한다.