NPU 효율성, 하이브리드 AI가 토스한다 [스냅드래곤 X 딥다이브 2025]

"CPU·GPU 아닌 NPU가 AI 전담, 전력 효율 극대화" 온디바이스 AI와 클라우드 AI 자동 전환 기술로 '보안'과 '성능' 두 마리 토끼 잡아

2025-11-23     미국 샌디에고=최진홍 기자

미국 샌디에고 퀄컴 본사에서 11일(현지시간) 열린 '스냅드래곤 X 시리즈 아키텍처 딥다이브 2025' 행사. 이날 현장에서는 퀄컴의 차세대 NPU(신경망처리장치)가 실제 환경에서 AI 워크로드를 얼마나 효율적으로 처리하는지, 그리고 온디바이스 AI와 클라우드 AI가 결합된 '하이브리드 AI'가 어떤 알고리즘으로 작동하는지에 대한 상세한 시연이 이루어졌다.

사진=최진홍 기자

시연장 중앙에는 5K 디스플레이와 연결된 미니 PC가 놓여 있었다. 첫 번째 시연은 이 미니 PC에서 구동되는 AI 기반 사진 보정 프로그램 '토파즈 랩(Topaz Labs)'을 통해 NPU의 독립적인 성능을 증명하는 데 초점을 맞췄다.

화면 구성부터 남달랐다. 디스플레이 왼쪽에서는 4K 유튜브 고화질 영상이 끊김 없이 재생되고 있었고, 오른쪽에서는 흐릿한 저해상도 인물 사진이 떠 있었다.

현장에서 시연을 이끈 카우시크 칼리타(Kaushik Kalita) 퀄컴 엔지니어링 시니어 디렉터는 "왼쪽의 4K 영상은 칩셋 내부의 '멀티미디어 디코딩 엔진'이 전담 처리하고 있다"며 "지금부터 오른쪽 화면에서 NPU를 이용해 흐릿한 사진을 고화질로 업스케일링(Upscaling)하고, 동시에 얼굴 복원(Face Recovery) 기능을 적용하겠다"고 설명했다.

AI 작업이 시작되자 작업 관리자 창에서는 NPU 사용량이 급격히 치솟았다. 흥미로운 점은 그동안 CPU와 GPU의 그래프는 바닥을 기고 있었다는 점이다. 칼리타 디렉터는 "얼굴 복원 프로세스가 완료되는 대로 이미지 업스케일링이 이어서 진행된다"며 "이 과정에서 품질 향상을 위해 여러 개의 AI 모델이 동시에 돌아가고 있다"고 덧붙였다.

불과 몇 초 후, 흐릿했던 사진은 놀라울 정도로 선명하게 복원됐다. 4K 영상은 여전히 부드럽게 재생 중이었다.

그는 "이 애플리케이션은 전적으로 NPU만을 사용하고 있다"면서 "사진을 개선하는 동안 백그라운드에서 여러 모델이 실행되어도 CPU와 GPU는 거의 '유휴(idle)' 상태다. 이는 사용자가 렉(Lag) 없이 더 많은 다른 애플리케이션을 동시에 실행할 수 있는 여유 자원이 충분하다는 의미"라고 강조했다. 스냅드래곤 X 시리즈의 강력한 멀티태스킹 성능과 전력 효율성을 시각적으로 증명한 순간이다.

두 번째 시연은 퀄컴이 지향하는 하이브리드 AI의 청사진을 구체화했다. 시연에는 콴타(Quanta) 사의 2-in-1 태블릿이 사용됐으며, 기기에는 70B(700억 파라미터)급 거대언어모델(LLM) '라마 2(Llama 2)'가 탑재됐다.

칼리타 디렉터는 "이 시스템은 내부 정책(Policy)에 따라 모델을 기기(로컬)에서 돌릴지, 클라우드에서 돌릴지 스스로 판단하는 '오토(Auto)' 모드로 설정되어 있다"며 "온디바이스와 클라우드를 자유롭게 오가는 하이브리드 구조의 진정한 잠재력을 보여줄 것"이라고 소개했다.

먼저 그가 "AI가 인간에게 왜 중요한지 간략히 설명해줘(Explain in brief how AI is important for humans)"라는 비교적 일반적인 질문을 입력했다. 그러자 기기는 즉시 '온디바이스' 모드로 작동했다. 칼리타 디렉터는 "결과물이 생성되는 동안 NPU 그래프가 다시 활성화되는 것을 볼 수 있다"며 "NPU가 답변을 생성하는 동안 CPU나 GPU 코어들은 여전히 쉬고 있어 다른 작업을 위한 대기 상태를 유지한다"고 설명했다.

이어 더 복잡한 연산이 필요한 질문을 던졌다. "두 개의 행렬을 곱하는 파이썬 프로그램을 작성해줘(Write a Python program to multiply two matrices)."

질문이 입력되자마자 이번에는 기기 모드가 '클라우드'로 자동 전환됐다. 하드웨어 모니터링 화면의 반응도 달라졌다. 그는 "이번에는 CPU, GPU, NPU 등 기기 내 어떤 코어도 활용되지 않는다"며 "대신 와이파이(Wi-Fi) 트래픽 항목에 작은 '스파이크(급상승)'가 발생하는데, 이는 데이터가 클라우드로 전송되어 처리되고 있음을 나타낸다"고 분석했다.

이러한 하이브리드 AI의 가장 큰 장점은 보안과 효율, 그리고 확장성이다.

칼리타 디렉터는 "민감한 문서가 있어 외부로 유출하고 싶지 않다면, 클라우드를 거치지 않고 기기 자체에서 AI 추론을 실행해 보안성을 확보할 수 있다"고 강조했다. 이어 "우리가 보여주고자 하는 핵심은 이 얇고 작은 폼팩터(태블릿)에서도 매우 낮은 전력으로 강력한 작업을 수행할 수 있다는 사실"이라며 "앞으로는 훨씬 더 큰 수십억 개 파라미터 모델도 이와 같은 방식으로 매끄럽게 실행할 수 있게 될 것"이라고 자신감을 내비쳤다.