로봇이 맥락을 읽기 시작했다 네이버 공간지능의 진화

파운데이션 모델로 하드웨어 한계 돌파 네이버랩스 유럽 워크샵서 청사진 공개

2025-11-24 최진홍 기자

단순히 지도를 그리고 장애물을 피하는 단계를 넘어섰다. 로봇이 사람의 위치를 파악하는 것에 그치지 않고 그 사람이 '무엇을 하고 있는지' 이해하기 시작했다. 대화 중인 사람들 사이를 비집고 들어가지 않고 우회하거나, 누군가 자신을 부르면 고개를 돌려 반응하는 '눈치' 있는 로봇의 등장이 머지않았다.

네이버랩스 유럽은 프랑스 그르노블에서 지난 20일부터 21일까지 제4회 AI for Robotics 워크샵을 개최하고 로봇 대중화를 위한 핵심 기술인 공간지능(Spatial AI)의 최신 연구 성과를 24일 발표했다.

이번 워크샵의 화두는 단연 공간지능이었다. 공간지능 개념의 창시자인 앤드류 데이비슨 임페리얼 칼리지 런던 교수를 비롯해 전 세계 150여 명의 석학이 모여 로봇의 인지 능력을 인간 수준으로 끌어올릴 방안을 모색했다. 핵심은 물리적 공간의 3D 모델링을 넘어 사물과 사람의 관계, 움직임의 맥락까지 파악하는 기술이다.

네이버랩스 유럽은 이 자리에서 로봇의 눈과 뇌를 진화시킬 신규 AI 모델 더스터2(DUSt3R-2)와 애니(ANNY)를 공개하며 기술적 해법을 제시했다.

더스터2는 사진 한 장만으로 평면의 이미지를 3D 공간으로 재구성하는 시각 모델이다. 사전 정보가 없는 낯선 공간에 로봇이 떨어져도 즉각적으로 주변을 입체적으로 파악할 수 있게 돕는다. 기존 모델보다 상용화 가능성을 높여 로보틱스뿐만 아니라 자율주행, 디지털 트윈 등 다양한 산업군으로 확장이 가능하다.

함께 공개된 애니는 로봇이 사람을 이해하는 방식을 고도화했다. 단순히 사람의 형체를 인식하는 것을 넘어 아이부터 노인까지 다양한 신체적 특징을 정밀하게 파악한다. 인구 통계 데이터를 활용해 개인정보 침해 우려 없이 사람의 행동 패턴을 학습시킨 것이 특징이다. 이 기술이 적용되면 로봇은 주행 중 마주치는 사람의 연령대나 행동 특성에 맞춰 속도를 줄이거나 경로를 수정하는 등 사회적 상호작용이 가능해진다.

사진=네이버랩스

네이버랩스 유럽은 이러한 개별 기술을 하나로 묶는 범용 파운데이션 모델 개발에 속도를 내고 있다. 2021년부터 로봇의 시각(Vision), 행동(Action), 상호작용(Interaction) 등 연구 전반을 파운데이션 모델 중심으로 전환했다. 챗GPT가 언어를 이해하듯 로봇이 물리 세계의 법칙과 상식을 학습해 별도의 프로그래밍 없이도 복잡한 환경에서 자율적으로 판단하고 행동하게 만드는 것이 목표다.

이는 네이버가 보유한 세계 최초의 로봇 친화형 빌딩 1784라는 거대한 테스트베드와 결합해 시너지를 낼 전망이다. 유럽의 선행 연구가 한국의 실제 서비스 환경에서 검증되며 기술 완성도를 높이는 선순환 구조다.

이동환 네이버랩스 리더는 "네이버랩스는 2016년부터 공간지능과 물리지능 연구에 집중해 왔으며 1784를 비롯한 국내외 테스트베드에서 기술을 실증하고 실제 서비스에 적용해온 전례 없는 경험을 축적하고 있다"며 "앞으로도 글로벌 무대에서 연구 성과를 적극 공유해 생태계를 확장하는 한편 로봇을 위한 AI 연구 개발에 더욱 집중할 것"이라고 말했다.

이번 워크샵은 로봇 산업의 경쟁력이 하드웨어 제조 능력을 넘어 AI 소프트웨어 파워로 이동하고 있음을 보여준다. 네이버는 독자적인 공간지능 기술과 파운데이션 모델을 앞세워 글로벌 빅테크들이 각축전을 벌이는 미래 로봇 플랫폼 시장에서 주도권을 잡겠다는 전략이다.