"이전에는 불가능했습니다. 이제 우리는 X 엘리트 라인으로 그것을 가능하게 만들었습니다."
12일(현지시간) 미국 샌디에이고 퀄컴 본사에서 열린 스냅드래곤 X 시리즈 아키텍처 딥다이브 2025 랩투어 현장. 퀄컴은 강력한 헥사곤(Hexagon) NPU를 통해 그동안 클라우드 서버에서나 운용이 가능했던 초거대 AI 모델을 노트북(PC)에서 직접 구동하는 시대를 열었다. 진정한 온디바이스 AI 시대의 개막이다.
카우시크 칼리타(Kaushik Kalita) 퀄컴 엔지니어링 시니어 디렉터는 스냅드래곤 X 엘리트에 탑재된 NPU를 활용한 4가지 핵심 AI 애플리케이션 시연을 직접 선보였다. 시연 내내 노트북은 인터넷 연결 없이(온디바이스) 복잡한 AI 연산을 막힘없이 처리했으며, 작업 수행 시마다 NPU 점유율이 즉각적으로 치솟으며 강력한 성능을 입증했다.
가장 눈길을 끈 것은 인도 AI 스타트업 사르밤 AI(Sarvam AI)와 협력한 거대 언어 모델(LLM) 시연이었다. 이는 240억(24B) 파라미터에 달하는 초대형 모델로, 힌디어를 포함한 10개의 각기 다른 인도 언어로 미세조정(fine-tuning)된 것이 특징이다.
칼리타 디렉터는 "이처럼 거대한 모델을 엣지(Edge) 기기에서 돌리는 것은 사실상 불가능한 영역이었다"면서 "우리는 사르밤 팀과 협력해 PCQ, SSD, 멀티 그래프 최적화 등 다양한 기술을 적용해 NPU에서 모델이 효율적으로 실행되도록 최적화했다"고 설명했다.
그 결과 240억 개에 달하는 매개변수를 가진 모델임에도 NPU 상에서 초당 약 17토큰(단어)을 생성하는 놀라운 속도를 달성했다. 현장에서는 복잡한 힌디어 문서를 영어로 요약하는 시연이 진행됐다. 요약이 시작되자마자 작업 관리자의 NPU 그래프가 즉시 상승했는데, 이는 무거운 연산이 CPU가 아닌 전적으로 NPU에서 처리되고 있음을 보여주는 대목이다.
두 번째 시연은 분산형 AI(Distributed AI)의 미래를 보여줬다. 애니씽 LLM(Anything LLM) 플랫폼을 활용해 PC를 일종의 'AI 핫스팟'으로 만드는 기술이다.
칼리타 디렉터는 "스마트폰, 스마트워치, 스마트 안경과 같은 모바일 기기의 AI 작업을 컴퓨터 시스템으로 완전히 오프로딩(offloading)하는 개념"이라며 "컴퓨터의 강력한 연산 능력을 원격으로 활용해 작업을 완료하고 그 결과를 다시 모바일 기기로 전송받는다"고 설명했다. 즉, 노트북을 가방 속에 넣어둔 채로도 모바일 기기를 통해 노트북의 고성능 NPU를 활용할 수 있다는 뜻이다.
시연자가 스마트폰으로 긴 PDF 문서를 불러와 질문을 던지자, 연결된 노트북의 NPU가 즉각 활성화되며 문서를 분석해 스마트폰 화면에 답변을 띄웠다.
세 번째는 토파즈 랩스(Topaz Labs)와 협업한 크리에이티브 AI 시연이었다. 여기서는 '텍스트-비디오 변환'과 '4K 비디오 업스케일링' 기술이 소개됐다.

현장에서 "나비가 나뭇잎에 앉아있는 모습"이라는 프롬프트를 입력하자, NPU가 즉각 작동하며 여러 모델(SSD, 멀티모달 확산 트랜스포머 등)을 동시에 구동해 512x320 해상도의 2초짜리 클립을 순식간에 생성해 냈다. 이어 생성된 영상을 NPU와 GPU를 유동적으로 함께 활용하는 '이기종(heterogeneous) 컴퓨팅' 방식을 통해 4K 해상도로 선명하게 업스케일링했다.
칼리타 디렉터는 "애플리케이션이 성능을 극대화하기 위해 NPU나 GPU 중 가용한 자원을 판단해 자동으로 워크로드를 분산시킨다"고 강조했다.
마지막으로 넥사.ai(Nexa.ai)의 멀티모달 LLM 플랫폼도 시연됐다. 넥사.ai는 자체 엔진인 'NextML'을 구축해 개발자들이 별도의 최적화 과정 없이 OpenAI API와 동일한 방식으로 NPU를 활용할 수 있게 했다.
시연자가 캘린더 초대 이미지를 입력하자 NPU가 즉시 활성화되어 이벤트 시간, 장소 등 핵심 정보를 정확히 추출해 냈다. 이어 마이크를 켜고 "Nexa AI가 무엇인가?"라고 음성으로 묻자, 음성 인식부터 답변 생성까지의 전 과정이 온디바이스 NPU에서 매끄럽게 처리됐다.
퀄컴 측은 "우리는 개발사들과 긴밀히 협력해 그들의 모델이 출시 첫날(Day-1)부터 스냅드래곤 NPU에서 최적화된 상태로 구동되도록 지원하고 있다"며 온디바이스 AI 생태계 확장에 대한 자신감을 내비쳤다.













