AI가 처음 들어본 호주 농담 기억한 비결은? [스냅드래곤 서밋 2025]
“AI는 속도가 전부” ‘괴물 NPU’로 모바일 AI 시대 선언 8 엘리트 5세대 공개… 개인화된 ‘에이전트 AI’ 시대 온다
퀄컴이 미국 하와이에서 열린 ‘스냅드래곤 서밋 2025’ 기술 시연 무대에서 차세대 모바일 플랫폼 ‘스냅드래곤 8 엘리트 5세대’의 심장부인 ‘헥사곤(Hexagon) NPU’의 압도적인 성능을 공개했다.
이제 스마트폰이 단순한 정보 소비 기기를 넘어 사용자의 의도를 파악하고 작업을 수행하는 진정한 ‘에이전트 AI’로 진화하고 있음을 증명하는 자리다. 특히 세계 최초로 오픈AI의 최신 모델인 GPT-4o를 스마트폰에서 직접 구동하는 라이브 시연은 AI가 클라우드를 떠나 사용자의 손안으로 들어오는 시대가 본격적으로 개막했음을 알리는 신호탄으로 볼 수 있다.
비네쉬 수크마 퀄컴 제품 관리 부사장은 24일(현지시간) 열린 기술 세션에서 모바일 AI 시장의 혁신을 주도해 온 자사의 역사를 강조했다. 수크마 부사장은 “모바일 AI 분야에서 인식(perception)과 생성형 AI 영역 모두에서 엄청난 경험 혁신이 있었다"면서 “지난 몇 년간 시장에서는 배터리 수명에 미치는 영향을 최소화하면서도 장기간 지속적인 리더십을 발휘하려는 열망이 컸다. 바로 이 지점에 헥사곤 NPU가 있다"고 말했다.
퀄컴이 이번 스냅드래곤8 엘리트 5세대에서 가장 강조한 것은 ‘속도’와 ‘효율’이다.
수크마 부사장은 “인식 및 생성형 AI 사용 사례 모두에서 관건은 속도"라며 “이번 세대의 헥사곤 NPU는 이전 세대 대비 약 37% 더 빠르다”고 밝혔다. 나아가 “대부분의 AI 경험이 온디맨드 방식에서 유비쿼터스(언제 어디서나 존재하는) 방식으로 전환됨에 따라 배터리 수명이 매우 중요해졌다”면서 “이번 세대는 이전 세대보다 와트당 성능이 약 16% 더 우수하다”고 설명했다.
성능 향상 비결은 헥사곤 NPU 아키텍처의 근본적인 혁신에 있다. 수크마 부사장은 “긴 문맥의 프롬프트 처리를 가속화해 종단 간 지연 시간을 개선하려면 벡터 코어에 투자해야 했기에 이번 세대에는 8개의 벡터 코어를 탑재했다”면서 “매트릭스 가속에 중점을 둔 대규모 언어 모델(LLM)을 위해 텐서 코어의 일부인 컴퓨팅 모듈에 대한 투자도 늘렸으며, 동적 형태나 숨겨진 가중치 패턴을 지원하기 위해 스칼라 코어의 수를 약 2.12배 늘렸다”고 말했다.
마지막으로 모든 코어로 가는 대역폭을 늘려 메모리에서 정보를 가져올 때 실시간 처리가 가능하도록 설계, 종단 간 지연 시간을 낮추고 사용자에게 더 나은 서비스 품질(QoS)을 제공한다고 설명했다.
그는 나아가 “이번 세대에 2비트 INT4와 FP8이라는 새로운 데이터 유형을 도입했다”면서 “INT4는 대역폭 증가로 더 높은 토큰 속도를 구현하기 위한 기본 인프라를 제공하고 FP8은 부동소수점 8비트로 훈련된 모델을 별도의 변환 없이 바로 추론에 사용할 수 있게 해 시장 출시 시간을 최소화하는 이점을 제공한다”고 말했다.
수크마 부사장은 나아가 “생성형 AI 경험의 요소를 기반으로 볼 때, 전체 생태계는 지시 기반 모델에서 멀티모달 추론 기반 모델로 전환되고 있다”며 초당 약 220개의 토큰을 생성해 30억 매개변수 LLM에서 초당 220 토큰을 달성했다"고 강조했다.
메모리 아키텍처도 새롭게 설계됐다. 그는 “엣지 디바이스에 대규모 모델을 저장할 때 우리는 모델을 작은 덩어리로 나누어 메모리의 여러 곳에 분산시켰지만, 추론을 호출할 때 이 덩어리들을 재구성해야 했기에 지연 시간에 영향을 미쳤다”면서 “이번 세대에서는 문제를 해결하기 위해 64비트 아키텍처로 전환했으며, 대규모 모델을 메모리 모듈 내 특정 위치에 저장할 수 있는 기본 인프라를 제공했다”고 밝혔다. LPDDR5X 메모리를 5.2GHz/s로 구동해 약 80~90GB/s의 총 대역폭을 확보, 높은 토큰 속도를 뒷받침한다는 설명이다.
퀄컴은 무대 위에서 실제 ‘에이전틱 AI’ 시연을 펼치기도 했다. 제리 창 퀄컴 제품관리 매니저와 조지 챈 라일라 네트워크 설립자가 무대에 올라 개인화된 온디바이스 AI 비서 ‘페이지 AI(Page AI)’를 선보였다.
시연은 페이지 AI에게 "당신은 어디에 있고 무엇을 할 수 있나요?"라는 간단한 질문으로 시작됐다. LLM은 즉각적으로 "매우 빠르게" 답변을 생성했다. 이어진 시연에서는 현재 날씨를 묻자 페이지 AI가 에이전트 기능을 발동해 날씨 API를 호출하고 현재 정보를 읽어왔다. 제리 창 매니저가 “호주인들은 날씨에 상관없이 바비큐(Barbie)를 즐긴다”며 “바비큐 파티를 열고 친구 제리를 오후 5시에 초대해달라”고 말하자 페이지 AI는 즉시 캘린더 도구를 호출해 연락처에 있는 제리를 초대하는 일정을 생성했다.
‘장기 기억’도 눈길을 끈다. 조지 챈 CEO가 “페이지 AI와 대화하는 동안 페이지는 실제로 많은 대화를 지식 그래프(knowledge graphs)로 추출한다”며 “향후 대화에서 페이지는 이 장기 기억에서 정보를 가져와 훨씬 더 관련성 높은 답변을 제공할 것”이라고 설명했다. 현장에서 호주의 속어인 ‘바비(Barbie)’를 이해하고 기억하는 모습은 놀랍다는 평가를 받기도 했다.
여기에 문서 처리(RAG) 기능도 시연됐다. 미리 로드된 PDF 문서를 여러 계층으로 분해해 깊이 있게 이해하고, 문서에 명시되지 않은 일반적인 질문에도 답변하는 능력을 보여줬다. 이미지 생성 기능은 퀄컴 헥사곤 NPU에서 직접 실행되는 스테이블 디퓨전 모델을 통해 1초 이내에 이미지를 만들어낸다는 설명이다. 여기에 특히 기술 전문가들을 위해 다양한 LLM을 선택하고 설정할 수 있는 옵션도 공개됐다.
오픈AI의 최신 오픈소스 모델인 ‘GPT-4o’를 스마트폰에서 구동하는 시연도 구동됐다.
한편 그는 개인화의 핵심 기술인 ‘퍼스널 스파크(Personal Spark)’도 소개했다. 그는 “8 엘리트 5세대 플랫폼에서 처음으로 도입되는 퍼스널 스파크는 센싱 허브의 새로운 기능”이라며 “사용자 주변과 사용자 자신과의 대화에 대한 요소들을 지능적으로 저장하는 것에 관한 것"이라 말했다.