AI PC 시대의 주도권은 시스템을 이해하는 자가 쥔다. 이런 가운데 퀄컴이 자사의 AI PC 전략을 집대성한 '설계도'를 전격 공개해 눈길을 끈다. 단순한 칩 성능 경쟁이 아닌, AI 워크로드를 처리하는 방식의 근본적인 체질 개선을 선언한 것이 흥미롭다.

특히 상시 구동과 에이전틱 AI라는 거대한 비전을 구현하기 위해 칩 설계의 가장 근본적인 단위부터 소프트웨어 생태계 전략까지 모든 것을 'AI-First' 관점에서 재정의한 부분이 탁월하다는 평가다.

스냅드래곤 X2 시리즈의 존재감이 점점 커지고 있다.

사진=최진홍 기자
사진=최진홍 기자

왜 NPU인가
12일(현지시간) 스냅드래곤 X 아키텍처 딥다이브 2025 무대에 오른 우펜드라 쿨카르니 퀄컴 제품 매니지먼트 부사장은 PC 플랫폼의 세 가지 핵심 엔진인 CPU, GPU, NPU가 고유의 'DNA'를 가지고 있다고 정의했다. 실제로 그는 "DNA 수준, 즉 ATCG 수준까지 내려가 보면 세 엔진은 명확히 다르다"고 강조했다.

쿨카트니 부사장의 설명에 따르면 CPU(중앙처리장치)는 스칼라 수학과 분기가 많은 복잡한 코드를 처리하는 전통적인 범용 엔진이다. 그리고 GPU(그래픽처리장치)는 3D 게임을 위해 벡터 수학에 특화됐지만, 높은 성능만큼 전력 소모가 크다는 태생적 한계를 지닌다.

반면 NPU(신경망처리장치)는 오직 매트릭스 수학과 신경망 코드를 위해 탄생했다. 쿨카르니 부사장은 NPU를 두고 "대규모 네트워크를 매우 효과적이고 효율적으로 실행하며 최소한의 전력을 소비한다"고 설명했다. 이는 AI 연산의 중심을 NPU에 두는 퀄컴의 'AI-First' 사상을 명확히 보여준다.

상시 구동 AI를 위해선 전력 소모가 큰 GPU가 아닌, NPU가 주역이 되어야 한다는 논리다.

GPU의 엔비디아가 AI 시장을 석권한 가운데, 그 자리를 NPU가 차지해야 한다는 일종의 '야망'으로도 읽힌다.

이러한 퀄컴의 설계 철학은 구체적인 벤치마크 데이터로 입증됐다. 쿨카르니 부사장은 Procyon AI 컴퓨터 비전 벤치마크 결과를 공개하며 "모든 TOPS(초당 조 단위 연산)가 동일한 점수를 생성하는 것은 아님을 알 수 있다"고 말하면서도 스냅드래곤 X2 엘리트 NPU(80 TOPS)는 AI 성능(4151점) 면에서 경쟁사(인텔 코어 울트라 9)의 NPU(719점) 대비 5.7배, 심지어 경쟁사가 AI용으로 강조하는 GPU(1197점)보다도 3.4배 이상 높은 점수를 기록했다고 말했다. 

AI 워크로드는 AI 전용 엔진이 처리해야 한다는 주장이 단순한 선언이 아님을 숫자로 증명한 셈이다.

사진=갈무리
사진=갈무리

생태계 공략
아무리 강력한 하드웨어도 소프트웨어가 받쳐주지 않으면 '무용지물'이다. 특히 PC 생태계에서 퀄컴이 넘어야 할 가장 큰 산은 개발자들의 지원을 이끌어내는 것이다. 쿨카르니 부사장은 "ISV(개발사) 관점에서 그들은 각 아키텍처에 맞게 애플리케이션을 최적화하고 싶어 하지 않는다"며 PC 생태계의 고질적인 문제를 정면으로 겨냥하기도 했다.

다만 이미 길은 개척되는 중이다. 당장 퀄컴은 MS가 제공하는 표준 API 경로인 'Windows ML(WinML)'과 퀄컴 고유의 QNN 두 가지 핵심 경로를 제공하고 있다. 그는 "우리의 설계 원칙은 이 두 가지 경로를 통해 동일한 성능을 제공해 실리콘 속도(Speed of Silicon)를 달성할 수 있도록 하는 것"이라고 강조했다.

실리콘 속도란 아키텍처가 낼 수 있는 이론상 최고 성능을 의미한다. 즉 개발자가 복잡한 최적화 없이 표준 도구(WinML)를 쓰더라도 NPU의 성능을 100% 끌어낼 수 있다는 의미다. PC 생태계 진입에 가장 중요한 '개발자 친화성'을 확보하기 위한 퀄컴의 전략적 승부수다.

PC 생태계 공략은 여기서 그치지 않는다. 퀄컴 AI 허브를 통해 개발자들이 즉시 사용할 수 있는 1000개 이상의 최적화된 AI 모델을 제공하는 한편 "업그레이드 가능한 NPU 드라이버"를 도입한다고 밝혔다. PC 시장에서 GPU 드라이버를 업데이트하듯 NPU의 성능과 기능을 OS 업데이트와 별개로 지속해서 개선해 나가겠다는 의미다. 당연히 PC 생태계의 문법을 완벽하게 따르겠다는 선언이다. 

그는 "노력의 결과 어도비, 다빈치 리졸브, 블렌더 등 주요 소프트웨어들이 이미 NPU 가속을 지원하며 ISV 커뮤니티로부터 엄청난 호응을 얻고 있다"고 말했다.

성과는 실제 데모 시연으로 증명됐다. 13페이지 문서를 요약하는 작업에서 80 TOPS의 X2 엘리트는 초당 82 토큰을 생성, 45 TOPS의 X1 엘리트(초당 40 토큰) 대비 2배의 향상을 보여주기도 했다.

특히 클라우드 존재 제로 상태에서 240억(24B) 파라미터의 거대 언어 모델을 구동하며 실시간 번역과 음성 출력을 시연하고, 휴대폰의 명령을 PC의 NPU가 받아 AI 연산을 수행하는 '디바이스 간 추론'을 선보이며 NPU가 백그라운드 에이전트로서 작동하는 '에이전틱 AI'의 미래를 잘 보여줬다.