네이버, CVPR 2025에서 14편 논문 채택…공간지능·비전 AI 기술력 입증

2025-03-25     최진홍 기자

네이버의 기술 조직 ‘팀네이버’(네이버랩스, 네이버랩스 유럽, 네이버클라우드 등)가 컴퓨터비전 분야 최고 권위 학회 ‘CVPR 2025(Computer Vision and Pattern Recognition Conference)’에 14편의 연구 논문을 등재하며, 공간지능과 비전 AI 기술의 글로벌 경쟁력을 다시 한번 증명했다. 1983년 시작된 CVPR은 전기전자공학자협회(IEEE)와 컴퓨터비전협회(CVF)가 주최하는 세계적 학술대회로, 비전 AI 분야의 대표 행사이자 구글 스칼라 기준 컴퓨터 공학 분야 1위, 과학 전 분야 2위의 영향력을 가진 학회로 평가받는다.

네이버는 최근 5년간(2020~2025년 3월) 컴퓨터비전 3대 학회(CVPR, ECCV, ICCV)에 총 151편의 정규 논문을 등재하며 매년 두 자릿수 논문을 꾸준히 발표했다. 이를 통해 네이버는 세계적인 AI 기술 기업으로서 입지를 굳건히 다졌다.

CVPR 2025에서 팀네이버는 다양한 주제의 연구 성과를 선보인다. 네이버랩스 유럽은 지난해 화제를 모은 3D 재구성 AI 도구 ‘DUSt3R’의 후속 연구를 공개한다. 단 몇 장의 사진으로 3D 복원이 가능한 DUSt3R을 기반으로, 다중 이미지를 활용해 정밀한 3D 공간을 재구성하는 ‘MUSt3R’과 카메라·장면 정보를 통합해 추론 성능을 높인 ‘Pow3R’이 새롭게 소개된다. 또한 네이버랩스는 학습되지 않은 물체의 위치와 방향을 정확히 추정하는 기술(Co-op)을 제안하며 공간지능 분야에서의 리더십을 강조했다.

이미지 학습 모델 연구도 주목받았다. 네이버클라우드는 마스킹 기법의 훈련 불안정성을 해결한 효율적 학습법(Masking meets Supervision)을, 네이버랩스 유럽은 시각언어모델(VLM)을 활용해 추가 학습 없이 새로운 사물을 구분하는 기술(LPOSS)을 발표하며 멀티모달 AI 기술의 발전을 이끌었다.

로봇 분야에서는 시각 입력부터 행동 출력까지 통합 학습하는 ‘엔드 투 엔드’ 방식으로 자율주행 로봇의 경로 탐색 효율성을 높인 연구(Reasoning in visual navigation)가 채택됐다. 이 외에도 이미지 생성 AI의 창의성을 강화하는 방법(Enhancing Creative Generation)이 포함되며 네이버의 폭넓은 기술력을 보여줬다.

팀네이버는 컴퓨터비전뿐 아니라 자연어처리, 음성, 머신러닝 등 AI 전 분야의顶级 학회에서 총 450편 이상의 논문을 발표했으며, 피인용 수 47,000회를 넘어섰다. 이는 네이버 연구의 높은 영향력을 방증한다.

네이버는 지속적인 R&D 투자로 선행기술을 확보하고, ‘온 서비스 AI’ 전략에 따라 생성형 AI와 공간지능 기술을 주요 서비스에 접목해 사용자에게 차별화된 경험을 제공할 계획이다.

구체적인 연구 성과도 눈길을 끈다.

네이버의 기술 조직 ‘팀네이버’가 ‘CVPR 2025’에 채택된 14편의 논문으로 주목받고 있다. 이번 논문들은 3D 공간 재구성, 이미지 학습, 로봇 자율주행 등 최신 AI 기술 트렌드를 반영하며, 네이버의 기술력을 세계에 알렸다.

MUSt3R: Multi-view Network for Stereo 3D Reconstruction 연구에서는 여러 이미지를 활용해 대규모 3D 공간을 빠르게 재구성하는 기술로, 기존 ‘DUSt3R’을 한 단계 발전시켰다. Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors 연구는 카메라와 장면 정보를 더해 3D 재구성의 정확도를 높인 ‘DUSt3R’ 후속 연구다. Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach 연구에서는 로봇이 시각 정보에서 행동까지 스스로 학습해 경로를 효율적으로 찾는 자율주행 기술을 제안했다. LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation 연구는 시각언어모델을 활용해 추가 학습 없이도 이미지 속 사물을 정교하게 구분한다.

Heterogeneous Teacher Distillation 연구는 다양한 데이터로 학습된 모델의 지식을 단일 모델에 전달하는 새로운 지식 증류법을 선보였다. Gaussian Splatting Feature Fields for (Privacy-Preserving) Visual Localization 연구는 원본 이미지를 저장하지 않고도 위치를 정확히 파악하는 프라이버시 보호 기술이다.

Layered motion fusion: Lifting motion segmentation to 3D in egocentric videos 연구에서는 1인칭 영상에서 움직이는 물체와 배경을 3D로 분리하는 방법을 개발했다. Co-op: Correspondence-based Novel Object Pose Estimation 연구는 학습되지 않은 물체의 위치와 방향을 신속히 추정하는 기술로 주목받았다.

EDM: Equirectangular Projection-Oriented Dense Kernelized Feature Matching 연구는 360도 이미지의 왜곡을 고려해 특징점을 정확히 매칭하는 모델을 제안했다. Masking meets Supervision: A Strong Learning Alliance 연구는 마스킹 학습의 불안정성을 해결하며 이미지 학습 효율성을 높였다. Enhancing Creative Generation on Stable Diffusion-based Models 연구에서는 Stable Diffusion 모델의 창의적 이미지 생성 능력을 개선하는 방안을 내놨다. ControlFace: Harnessing Facial Parametric Control for Face Rigging 연구는 3D 모델로 얼굴 표정과 자세를 정밀하게 변형하는 기술을 공개했다.

CoCoGaussian: Leveraging Circle of Confusion for Gaussian Splatting from Defocused Images 연구는 초점이 맞지 않은 이미지에서도 3D 장면을 정확히 표현한다. Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models 연구는 네이버웹툰의 ‘IMPASTO’ 연구로, 창작물 무단 학습을 빠르게 차단하는 기술을 선보였다.