미국 샌디에이고 퀄컴 본사에서 12일(현지시간) 열린 '스냅드래곤 X 시리즈 아키텍처 딥다이브 2025' 랩투어에서 퀄컴의 차세대 오디오 기술이 공개됐다. 핵심은 중앙처리장치(CPU)나 메인 신경망처리장치(NPU)를 쓰지 않고, 초저전력 아일랜드인 '센싱 허브(Sensing Hub)'에서 AI를 구동해 주변 간섭 소음을 완벽히 제거하는 기술이다.

발표를 맡은 디팍 쿠마(Deepak Kumar) 퀄컴 시니어 스태프 엔지니어는 "우리는 노트북을 영상 통화, 게임 보이스챗, 음악 감상 등 다양한 용도로 사용하며 오디오는 사용자 경험의 핵심"이라며 "고품질 음향을 유지하면서 이 모든 기술을 아주 낮은 전력으로 구현하는 것이 퀄컴의 철학"이라고 밝혔다.

각각의 오디오가 분리되어 들린다. 사진=최진홍 기자
각각의 오디오가 분리되어 들린다. 사진=최진홍 기자

시연의 백미는 '개인 음성 분리(Personal Voice Call)' 기능이었다. 쿠마 엔지니어는 이 기능을 위해 CPU나 고성능 NPU 대신 센싱 허브와 소형 '마이크로 NPU(micro-NPU)'를 사용하는 방식을 택했다고 강조했다.

시연은 옆방에 있는 동료 팀과 실시간 화상 통화를 연결하는 방식으로 진행됐다. 발표자가 먼저 자신의 목소리를 15~30초간 읽어 AI 프로필을 생성했다. 화면 상단에는 '개인 음성 모드'를 켜고 끌 수 있는 토글 버튼이, 하단에는 사용자 음성 프로필이 표시됐다.

쿠마 엔지니어는 "공항 라운지나 개방형 사무실처럼 배경 잡음과 다른 사람들의 대화가 섞여 있는 매우 붐비는 곳을 가정해 보자"며 시연을 시작했다.

시연을 위해 동료들이 뒤에서 큰 소리로 대화를 나누기 시작했다. 그러나 기능을 활성화하자 발표자는 "두 사람이 이미 대화를 시작했지만, 여러분은 그들의 목소리는 전혀 듣지 못하고 내 목소리만 선명하게 들을 수 있을 것"이라고 자신했다. 실제로 시연 화면에서는 뒤쪽의 소음이 완벽히 제거된 채 발표자의 목소리만 또렷하게 전달됐다.

그가 토글 버튼을 눌러 기능을 비활성화(OFF)하자 상황은 돌변했다. 쿠마 엔지니어는 "이제 제 대화에 집중하기 어렵다. 주변의 모든 대화가 들려 마치 시장통(fish market) 같다"고 표현했다. 기능을 다시 켜자 주변 대화 소리는 거짓말처럼 사라졌다.

나아가 프로필을 다른 동료로 변경하자, 해당 동료의 목소리만 들리고 나머지 소리는 억제되는 모습도 확인됐다.

심지어 이 기술은 사용자의 목소리 상태 변화에도 강한 면모를 보였다. 그는 "감기에 걸리거나 피로할 때, 혹은 흥분해서 톤이 높아지거나 낮아지는 등 감정 변화가 있어도 AI는 프로필을 다시 생성할 필요 없이 내 목소리를 정확히 인식한다"고 설명했다.

퀄컴은 이 기술이 기존 AI 소음 제거 솔루션과 결정적으로 차별화된다고 강조했다. 쿠마 엔지니어는 "기존의 많은 노이즈 솔루션이 키보드 소리나 사이렌 소리는 제거할 수 있어도, 사람의 말소리인 '간섭 화자(interfering talker)'는 제거하지 못한다"며 "스냅드래곤 X2 엘리트는 다른 사람의 말소리까지 제거한다는 점이 다르다"고 역설했다.

이러한 고성능 기능의 핵심 비결은 초저전력이다. 그는 "CPU나 NPU 없이 오로지 센싱 허브와 마이크로 NPU만으로 처리되며, 전력 소비는 밀리와트(mW) 단위에 불과하다"며 "이는 노트북의 통화 시간을 획기적으로 늘려준다"고 밝혔다. 이어 "퀄컴은 하드웨어 IP, 소프트웨어, 알고리즘을 모두 자체 통합해 OEM과 개발자들이 즉시 사용할 수 있도록 했다"고 덧붙였다.

사진=최진홍 기자
사진=최진홍 기자

한편 퀄컴은 무향실(Anechoic Chamber)에서 스피커 보호 기술인 어쿠스틱 스피커 맥스(Acoustic speaker Max)도 함께 시연했다.

노트북에서 소리를 크게 틀면 진동으로 인해 키보드가 덜거덕거리는 잡음이 생기거나 스피커가 손상될 수 있다. 퀄컴은 노트북에 탑재된 가속도계를 이용해 키의 미세한 진동을 측정하고 억제하는 알고리즘을 선보였다. 기능을 끄자 음악 재생 중 키보드 떨림 소리가 들렸지만, 활성화하자 잡음이 사라지고 깨끗한 원음만 남았다.