▲ 딥마인드 연구원들이 인간의 뇌가 AI 알고리즘처럼 작동한다는 사실을 발견했다.  출처= Research Sniper

[이코노믹리뷰=홍석윤 기자] 인공지능의 발전은 종종 인간의 사고 방식에서 영감을 얻지만, 이제는 상황이 바뀌었다. 오히려 AI가 우리 뇌가 어떻게 배우는지를 우리에게 가르쳐주고 있는 것이다. 

런던의 기술회사 딥마인드(DeepMind)의 윌 대브니와 그의 동료들은 보상분포 강화학습 (distributional reinforcement learning)이라는 머신 러닝의 발전이 인간의 뇌에서 보상 중추(reward pathways)가 어떻게 작용하는지에 대한 새로운 설명을 제공한다는 것을 발견했다. 보상 중추는 즐거운 사건에 대한 우리의 반응을 좌우하며 뇌 화학 도파민을 방출하는 뉴런에 의해 조정된다.

대브니는 "두뇌 속의 도파민은 일종의 깜짝 신호이며, 예상보다 일이 잘 풀릴 때에는 도파민이 더 많이 분비된다"고 설명한다.

“이전에는 이 도파민 뉴런들이 모두 똑같이 반응했다고 생각되었습니다. 마치 합창단 모두가 정확히 같은 음을 부르는 것처럼 말이지요."

그러나 대브니 연구팀은 각각의 도파민 뉴런이 실제로 다르게 반응한다는 것, 즉 각각 다른 수준의 낙관이나 비관에 맞춰져 있는 것처럼 보인다는 것을 발견했다.

"도파민 뉴런들은 각각 다른 수준의 놀라움으로 신호를 보내더군요. 합창단이 서로 다른 음을 부르면서 함께 조화롭게 노래하는 것 같았습니다.”

이번 연구 결과는 AI가 바둑과 스타크래프트 II와 같은 게임을 마스터하기 위해 사용한 기술 중 하나인 보상분포 강화학습에서 영감을 얻었다.

간단히 말하자면, 강화 학습은 보상이 그 보상의 원인이 된 행동을 강화한다는 개념이다. 보상을 획득하기 위해서는 현재의 행동이 어떻게 미래의 보상으로 이어지는지에 대한 이해가 필요하다. 예를 들어 개는 ‘앉아’라는 명령을 배울 수 있다. 왜냐하면 개는 그렇게 할 때 특별한 상을 받기 때문이다.

이전에는, AI와 신경과학에서의 강화학습 모델은 ‘평균적인’ 미래의 보상을 예측하는 것을 배우는 데에 초점을 맞추었다. 그러나 대브니는 "그런 접근 방법은 우리가 실제로 경험하는 현실을 반영하지 못한다."고 말한다.

"예를 들어, 어떤 사람이 복권을 살 때, 그들은 이기거나 지는 것을 예상하지, 실제로 잘 일어나지도 않는 중간 정도의 평균적인 결과를 예상하지는 않지요."

미래가 불확실할 때, 일어날 수 있는 결과를 확률 분포로 대신 나타낼 수 있다. 일부는 긍정적이고 다른 일부는 부정적이다. 보상분포 강화학습 알고리즘을 사용하는 AI는 일어날 수 있는 보상의 전체 범위를 예측할 수 있다.

뇌의 도파민 보상 중추가 분포를 통해 작용하는지 여부를 테스트하기 위해 연구팀은 쥐의 개별 도파민 뉴런의 반응을 기록했다. 쥐들은 임무를 수행하도록 훈련받았고 임무 수행의 정도에 따라 다양하고 예측 불가능한 크기의 보상을 받았다.

연구원들은 각각의 도파민 세포들이 믿을 수 있을 정도로 다른 수준의 놀라움을 보인다는 것을 발견했다.

에스토니아 타투 대학교의 라울 비센테 교수는 "특정 자극이나 행동에 보상을 결부시키는 것은 생존에 매우 중요하다. 뇌는 보상에 관해 가치 있는 정보라면 어느 것도 버리지 않는다”고 설명했다.

"이 연구는 뇌가 효율적으로 작동하려면 변수의 평균값뿐만 아니라 변수가 얼마나 자주 다른 값을 가지는가를 나타내야 한다는 현재의 시각과 대체적으로 일치합니다. 컴퓨터 알고리즘이 신경 반응에서 무엇을 찾아야 할 것인지에 대해 우리를 가르쳐줄 수 있다는 것을 보여주는 좋은 예입니다."

그러나 비센테 교수는 그 결과가 쥐가 아닌 다른 종(種)이나 뇌의 다른 부위에도 적용되는지 여부를 입증하기 위해서는 더 많은 연구가 필요하다고 덧붙였다.

본 기사는 과학기술 전문지인 뉴사이언티스트(New Scientist)의 ‘DeepMind found an AI learning technique also works in human brains’ 제하의 기사를 전문 옮긴 것임.