18코어 '오라이언' 어떻게 움직이나? [스냅드래곤 X 아키텍처 딥다이브 2025]

프라딥 카나파티필라(Pradeep Kanapathipillai) 퀄컴 엔지니어링 부사장 겸 CPU 아키텍트 스냅드래곤 X 시리즈 딥다이브 2025 열려… 3세대 커스텀 CPU '오라이언' 상세 공개 프라임/퍼포먼스 18코어 구성, 44MB L2 캐시, 5GHz 클럭… "완전히 새로운 설계"

2025-11-19     미국 샌디에고=최진홍 기자

미국 샌디에고에서 11일(현지시간) 열린 스냅드래곤 X 시리즈 아키텍처 딥다이브 2025 행사는 퀄컴이 PC용 CPU 시장에 얼마나 진심인지를 여실히 보여주는 자리였다. 

퀄컴은 수십 년간 인텔과 AMD가 양분해 온 x86 기반 PC 시장에 ARM 아키텍처 기반의 스냅드래곤 X 엘리트로 정면 승부를 걸었다. 그리고 도전의 중심에는 바로 퀄컴이 자체 개발한 3세대 커스텀 CPU, 오라이언(Oryon)이 있다.

무대에 오른 프라딥 카나파티필라(Pradeep Kanapathipillai) 퀄컴 엔지니어링 부사장 겸 CPU 아키텍트는 오라이언 CPU의 심장부를 하나하나 해부하며 퀄컴의 기술적 자신감을 숨기지 않았다.

그는 특히 오라이언을 두고 "퀄컴의 3세대 커스텀 CPU이며, 오라이언 CPU라는 브랜드"라고 선언했다. 오라이언이 단순한 모바일 프로세서의 연장선이 아니라, PC와 데이터센터를 겨냥해 완전히 처음부터 설계된(from the ground up) 최첨단 CPU 설계의 결과물이라는 선포다.

카나파티필라 부사장은 "성능 면에서 이전 세대에 비해 엄청난 도약을 이루었다"고 강조하며 오라이언 CPU가 기존의 통념을 깨는 혁신적인 아키텍처를 채택했음을 분명히 했다. 

사진=최진홍 기자

'P'와 'E'가 아닌 'Prime'과 'Performance'… 18코어의 새로운 정의
가장 주목할 부분은 코어 구성이다. 기존 PC 시장의 강자들은 고성능 코어(P-core)와 고효율 코어(E-core)를 혼합하는 하이브리드 아키텍처를 내세워왔다. 

퀄컴의 접근 방식은 달랐다. 카나파티필라 부사장은 "총 18개의 CPU가 있으며 총 3개의 클러스터로 나뉜다"며 "소위 효율 코어는 없으며 그 대신 프라임(Prime) 클러스터 2개와 퍼포먼스(Performance) 클러스터 1개로 구성된다"고 말했다.

각 클러스터는 6개의 CPU 코어를 탑재한다. 2개의 프라임 클러스터에 총 12개의 프라임 코어가, 1개의 퍼포먼스 클러스터에 6개의 퍼포먼스 코어가 배치되는 구조다. 이는 퀄컴이 저전력 작업을 위한 소극적인 효율 코어 대신 모든 작업을 고성능으로 처리하되 성능의 '급'을 나누는 새로운 전략을 선택했음을 시사한다.

그는 고효율 코어를 뺀 것에 대해 "프라임 성능 코어가 성능과 고효율 사이의 동적 범위를 포괄한다고 생각한다"고 답했다.

오라이언의 퍼포먼스 코어가 이미 타사의 효율 코어 역할을 뛰어넘는 효율과 성능을 제공하고, 프라임 코어는 현존 최고 수준의 성능을 제공하기에 두 가지 유형의 코어만으로도 저전력부터 최고 성능에 이르는 넓은 동적 범위를 완벽하게 감당할 수 있다는 자신감의 표현이다. 물론 저전력 효율성에 대해서는 여전한 의문이 있으나, 퀄컴은 현재의 18개 코어에 자신감을 보이는 중이다.

한편 코어 구성은 강력한 캐시 메모리 시스템에 의해 뒷받침된다. 카나파티필라 부사장은 "각 클러스터의 코어들은 일관성 있는 L2 캐시를 공유한다"고 설명했다. L2 캐시 크기는 프라임 클러스터의 경우 16메가바이트(16-way), 퍼포먼스 클러스터의 경우 12메가바이트(12-way)에 달한다.

모두 합산하면 18개의 CPU 코어가 공유하는 L2 캐시의 총량은 (16MBx2) + 12MB, 즉 44MB라는 막대한 용량이 된다. 현존하는 어떤 모바일 기반 프로세서와도 비교를 불허하며 하이엔드 데스크톱 CPU와 견주어도 손색없는 수준이다. 그리고 방대한 L2 캐시는 CPU 코어에 데이터를 신속하게 공급하여 병목 현상을 최소화하고, 실제 체감 성능을 극대화하는 핵심 요소가 될 것이라는 분석이다.

물론 속도의 측면에서 논란의 여지도 있다. 경쟁사가 비슷한 선택을 했으나 나름의 성과에 대해 이견도 나온다. 그러나 퀄컴은 이 방식이 현재의 상황에서는 최선이라는 점을 특히 강조하는 중이다.

사진=갈무리

5GHz의 벽을 넘다… "더 넓고 빠른 코어 설계"
오라이언 아키텍처의 핵심은 단연 프라임 코어다. 그리고 퀄컴은 이 프라임 코어에 모든 기술력을 집약시켰다. 카나파티필라 부사장은 "프라임 코어는 또한 더 넓고 빠른 코어 설계를 가지고 있다"며 "프라임 코어와 프라임 클러스터는 최고 성능을 위해 설계되었다"고 거듭 강조했다.

그 결과물은 경이로운 클럭 속도로 나타난다. 그는 "전체 CP 서브시스템에서 2개의 코어가 활성화된 후, 이전 세대보다 CPU를 5GHz로 클럭킹할 수 있다"고 밝혔다. '꿈의 주파수'로 불리던 5GHz의 벽을 ARM 아키텍처 기반의 커스텀 CPU가 넘어선 순간이다.

클러스터당 단일 코어, 즉 시스템 전체에서 최대 2개의 코어가 동작하는 최고 성능 구간에서의 수치다. 여러 코어가 활성화되면 4.4GHz의 기본 주파수가 사용되며, 다중 코어가 4.4GHz라는 높은 클럭으로 동시에 작동한다는 것은 오라이언 CPU가 비단 싱글 스레드 성능뿐만 아니라 멀티 스레드 성능 또한 현존 최고 수준을 목표로 하고 있음을 잘 보여준다.

퀄컴은 이를 위해 CPU의 프론트엔드부터 백엔드까지 모든 파이프라인을 새롭게 설계했다.

CPU의 첫 관문인 페치(Fetch) 및 디코드(Decode) 유닛부터 압도적이다.

페치 파이프라인은 192KB에 달하는 L1 명령어 캐시(I-cache)를 품고 있으며 이는 CPU가 한 번에 처리할 수 있는 명령어의 양을 극대화하려는 전략이 엿보인다. 이렇게 가져온 명령어는 '9-wide 디코드' 유닛으로 공급된다. 한 사이클에 최대 9개의 명령어를 해석하여 CPU의 백엔드(실행 유닛)로 보낸다는 의미다. 일각에서는 지나친 자원 낭비라는 주장도 있으나 현 상황에서는 최적의 성과를 내려는 시도로 풀이된다.

한편 이처럼 거대한 프론트엔드를 효율적으로 운영하기 위해서는 분기 예측(Branch Prediction)이 필수적이다. CPU가 다음에 실행할 명령어를 미리 예측하여 파이프라인을 쉬지 않고 채우는 기술이다.

카나파티필라 부사장은 "분기 예측은 모든 최신 CPU에서 매우 중요한 주제"라며 "우리는 적어도 4개의 분기 예측기를 가지고 있다"고 말했다. 단일 사이클에 다음 명령어를 예측하는 BTB(Branch Target Buffer)부터 조건 분기, 간접 분기, 리턴 주소 예측에 이르기까지 정교한 예측기들을 다층적으로 배치했다는 것이다.

성능의 척도는 예측이 틀렸을 때의 페널티로 가늠할 수 있다. 그리고 성과는 고무적이다. 예측이 틀렸을 때 전체 파이프라인을 비우고 올바른 경로에서 다시 명령어를 가져오는 데 단 10~13 사이클밖에 걸리지 않았기 때문이다. 업계 최고 수준의 속도로 퀄컴이 오라이언의 프론트엔드 설계에 얼마나 공을 들였는지 알 수 있는 부분이다.

명령어는 레지스터 리네임(Register Rename) 단계를 거쳐 실제 실행 유닛으로 보내진다. 이 단계 역시 디코드와 일치하도록 9-wide 리네임 설계를 채택해 병목을 없앴다. 특히 체크포인트도 사용된다는 점이 주목할 만하다. 분기 예측 실패 시, CPU의 상태를 즉각적으로 이전 체크포인트로 되돌려 페널티를 최소화하는 고도의 기술이다. 이어 매트릭스 엔진을 거친다.

사진=갈무리

6개의 정수 파이프, 4개의 벡터 파이프 "심장부"
모든 준비를 마친 명령어는 CPU의 심장부인 실행 유닛으로 향한다. 

오라이언의 백엔드는 강력하다. 카나파티필라 부사장은 "이 머신에는 6개의 정수 파이프가 있다"며 "64비트 연산을 처리하는 6개의 정수(Integer) 실행 유닛이 동시에 작동한다"고 말했다.

그는 이 공간을 "우리 CPU의 심장부"라며 "대다수의 정수 명령어에 대해 단일 사이클 지연 시간을 유지하는 것이 어려웠다"고 토로하기도 했다. 다행히 성과는 났다. 5GHz에 달하는 높은 클럭 속도를 유지하면서 동시에 대부분의 연산을 단 1 사이클에 처리하도록 설계됐기 때문이다. 여기에 벡터 및 부동소수점 연산 유닛 역시 막강하며 메모리 접근을 담당하는 '로드/스토어(Load/Store)' 유닛도 4개의 파이프를 갖추고 있다. 문제는 해결됐다. 

퀄컴 3세대 오라이언 CPU의 심장이 펄떡대는 순간이다. 18개의 고성능 코어, 44MB의 방대한 L2 캐시, 5GHz의 벽을 넘는 클럭 속도, 그리고 이를 뒷받침하는 고도로 정교한 마이크로 아키텍처를 통해 PC 시장의 '게임 체인저'가 될 준비를 마쳤다. 이는 단순한 성능 향상이 아닌, PC CPU 시장의 근본적인 판도를 뒤흔들 '설계 철학의 혁명'이라는 평가다.