들어가며
멋모르던 시절. 반도체 칩은 빠르고 느린 것으로만 구분할 수 있었던 시절에는 글을 용감하게 써내려갔다. 무식은 곧 용기였다. 그 원리도 알지 못한채 범람하는 인터넷의 뇌피셜들을 짜집기하여 나만의 또다른 뇌피셜을 만들어냈다. 누군가가 그랬던가. 그 분야를 알면 알수록 자신감이 없어진다고 했다. 내가 그렇다. 더이상 자신있게 이러이러해서 이렇다라고 말하기가 너무 어렵다. 특히 반도체에서는 더더욱 어렵다.
나는 공정을 잘 모른다. 배우긴 했지만 잘 알지 못하고 내 분야(디지털 칩 검증)와의 약간의 접점을 살려 유추할 뿐이다. 그렇다고 설계를 잘 아는 것도 아니다. 나는 디지털 칩 검증, 그 중에서 SoC(System on Chip) 검증 엔지니어이고 설계에 대해서 많이 모른다. 반도체 산업은 너무 방대하고 나는 그 커다란 업계의 손톱만한 영역에서 정말 보이지 않는 기여를 하는 사람이다. 밑에 적어놓은 ‘뇌피셜’들을 하나씩 다 구글링해가며 검증하고 싶지만 그렇게 되면 이 블로그에 글을 쓸 엄두가 안 날 것 같다. 따라서 후술한 내용들은 모두 가벼운 마음으로, 신뢰구간 90% 정도로 봐주면 고맙겠다.
CPU와 SoC
우리에게는 친숙한 CPU라는 용어는 사실 현대의 Chip에서는 SoC(System on Chip)로 진화됐다. 과거 컴퓨터는 커다란 메인보드 안에 각자의 분업이 확실한 장치들이 기판을 통해 얼기설기 연결되어 있었다면, 현대 컴퓨팅에서는 지연(Latency)를 줄이기 위해 모든 것을 하나의 패키지 안에 담는 추세이다. 구성하기 나름이지만, 애플의 M1칩을 예로 들면, 전통적인 주 연산 장치인 CPU뿐만 아니라 GPU, DRAM, NPU, Memory controller, Security controller 등이 한 지붕 안에 엮여있다. AP(Application Processor)란 SoC의 일종이지만 사실상 동의어로 쓰인다.
인텔의 공정성능은 TSMC보다 두 세대 정도 뒤처진 것으로 보인다. 현재 인텔의 PC용 CPU에 쓰이는 인텔7 (과거 10nm라고 불린) 공정이 경쟁사의 7nm 공정과 맞먹는 트랜지스터 밀도를 가진다는 것을 인정하더라도, 7nm는 이미 구세대 공정이 되어버린지 오래이다. 데스크탑과 같이 100W급 이상의 고전력 프로세서에서는 공정 열위를 칩 사이즈를 키우고, 코어 수를 늘리고, 전력을 퍼부어서 그 열위를 만회하고 있다. TSMC 공정을 사용한 AMD와의 1:1 비교는 어렵지만, 스윗스팟(*전성비가 가장 좋은 지점) 성능을 보면 확실히 인텔이 밀리는 것을 볼 수 있다. 그렇다고 인텔이 공정 외 설계 부분에서 큰 개선을 많이 해왔는가? 6세대에 첫 선을 보였던 스카이레이크(2015) 아키텍처는 몇 년을 우려먹었던가. 12세대 프로세서도 경쟁사에 비해 아직 갈 길이 멀었는데 2023년의 메인스트림인 13세대는 12세대의 리프레시이다.
애플은 엄청난 칩 설계 능력과 TSMC의 최선단 공정의 가장 큰 수혜를 받아 범접할 수 없는 전력대 성능 비를 가지게 되었다. 좋은 반도체의 3가지 지표인 PPA (Power, Performance, Area)에서 전력소모(Power)는 아주 적고 성능(Performance)는 아주 강력하다. 대신 면적(Area)이 동급 Chip들에 비해 비슷하거나 오히려 더 큰데 이건 칩 제조사 입장에서는 원가 상승을 의미하므로 부담이지만, 우리같은 소비자는 그걸 굳이 알 필요는 없다. 면적을 키우면 AP(=SoC)에서 가장 많은 부분을 차지하는 캐시의 크기를 늘릴 수 있고 이 캐시(Cache)는 효율을 높여 전성비에 도움이 되는 경향이 있다. CPU가 주는 명령어를 해석하는 디코더(Decoder)도 남들이 4-way로 넣을 때 동급 최강인 8-way로 넉넉하게 넣어놨다. 면적이 조금 넓긴 하지만 애플은 엄청난 규모의 경제로 A, M시리즈 칩셋을 그리 비싸지 않은 가격에 사오는 것으로 보인다.
AMD 라이젠(Ryzen)의 엄청난 L3 캐시 용량을 가진 3D 시리즈가 가진 캐시 적층 CPU를 보라! 게임 성능 향상도 인상적이지만 나는 전성비 향상이 아주 인상적이었다. 해당 기술은 TSV(Through Silicone Via)라는 칩에 작은 구멍을 내서 세로로 잇는 와이어 본딩 기술을 사용하는데, AMD의 기술이기 보다는 패키징이 아주 발달한 TSMC의 기술이라고 여기는 게 맞을 것이다. 요즘 떠오르는 ChatGPT가 쓰는 NVIDIA 그래픽카드의 HBM(High Bandwidth Memory)도 바로 이 TSV를 통해 적층하여 고대역폭을 만든 것이다. M1 Pro / Max / Ultra에서 보여줬던 M1칩을 2개, 4개, 8개 이어붙여 정확하게 그 배수의 성능을 내는 Interconnect 기술도 마찬가지로 후처리(패키징) 공정의 대가 TSMC의 것이다. 마찬가지로 애플 실리콘의 고대역폭 메모리의 비결도 M1 칩 옆에 바로 DRAM을 딱 붙여 덮어버린 패키징 기술의 산물이다. Core와 가까워진 DRAM 간 지연시간이 더 짧아져 대역폭을 더 뽑을 수 있게 된 것이다. M1 Pro 기준으로 200GB/s 정도의 대역폭이 나오는데, 이는 웬만한 중가형 그래픽카드의 GDDR 메모리 대역폭이다. PC용 DRAM으로 비교하자면, 현시점 가장 빠른 DDR5-6400이 모듈 당 약 50GB/s의 대역폭을 가지는데, M1 Pro는 4개의 모듈을 쿼드러플 채널로 구성한 것과 같은 대역폭을 가지는 것이다. 현재 상용화된 HBM3 메모리의 대역폭이 약 800GB/s 정도이다. HBM 만큼은 아니지만 단가가 아주아주 비싼 공정인 TSV 없이 고대역폭(204.8 GB/s)이 나오는 것은 아주 대단한 일이다.
애플의 M 시리즈 AP는 엄청난 전성비 덕에 어댑터로부터 전력을 빌려올 필요도 없으니 꽂았을 때와 성능 차이가 없고, 배터리 시간이 아주 길다. 특히나 아무 작업을 안할 때, Idle 시의 전력 소모가 아주 인상적이다. 칩 자체의 전성비 덕분인지, OS의 최적화 덕분인지 둘 다인지는 모르겠지만 유튜브 리뷰들을 보면 M2칩과 인텔 13세대의 Idle 전력이 과장 없이 10배는 차이나는 것 같다. 대체 인텔의 빅리틀(Big.Little) 구조의 전력 손실(Leakage)은 그 구조의 문제인지, 윈도우의 빅리틀 스케줄러 최적화 미숙 문제인지 둘 다인지 이해가 안 될 따름이다.
인텔은 2024년 시장에 선보일 14세대에서 응용처별로 블록을 나누고 경쟁사의 4nm와 특성이 비슷하다고 호소하는 Intel 4로의 이주, 그리고 다른 입출력(IO)/GPU 부분을 TSMC의 공정을 이용한다는 ‘포베로스(Foveros)’라는 3D 패키징 기술로 반격을 노리고 있다. 하지만 우려되는 점이 몇가지가 있다. Intel 7 공정 (과거 10nm라고 불린)의 전환이 인텔치고 얼마 되지도 않아 Intel 4 (과거 7nm라고 불린)공정이 등장하는 것인데, 그 성장치가 믿음직스럽지 않다. 둘째로 SoC를 갈기갈기 찢어 각자 용도에 맞게 선단공정이 필요한 부분은 TSMC의 최신 공정을 이용하고 나머지는 여유롭게 가져간다는 발상은 AMD에서 먼저 했고 성공적이었다. 다만 인텔의 경우 핵심 연산부인 Core는 여전히 의문이 가는 Intel 4 공정인 점과 Block들을 한 지붕으로 모으는 인텔의 패키징 기술 또한 의문스럽다. TSMC 공정을 사용한 GPU와 IO가 최선단 공정이 아님도 지적해야겠다. 그럼에도 지난 12세대에서 빅리틀 아키텍처 도입 이후로 완전히 아키텍처를 갈아 엎는 것이니 기대를 저버릴 수는 없다.
애플 실리콘 기반 맥에 Linux를 올리는 프로젝트인 아사히 리눅스를 구경하다 신기한 것을 발견했다. CPU의 관심을 가로채서 더 중요한 일을 우선처리하게 하는 Interrupt controller를 ARM에서 제공하는 GIC(General Interrupt Controller)를 굳이굳이 쓰지 않고 AIC(Apple Interrupt Controller)로 직접 설계하는 것이었다. 이런 사소한(?) 설계 외에도 Core 연산부를 ARM의 라이센스만 받아와서 직접 커스텀 하고, AP 안에 SSD Conroller도 내장하는 등 크고 복잡한 설계도 직접 하고 있다. (이전 인텔 맥에서는 이를 T1/T2라는 이름의 ARM 칩셋을 가진 전문 칩셋이 궂은 일을 도맡아 했다) 굳이 직접 설계했어야 하나 싶은 요소들을 모두 직접 설계하고 관리 하에 놓는다. 이렇게 되면 장단점이 분명한데, 장점은 당연히 범용성은 떨어지겠지만 본인들의 하드웨어에 꼭 맞는 스펙으로 설계할 수 있고 이는 성능과 전비 향상에 도움이 될것이다. 다만 범용성이 떨어지니 다른 회사에서 설계 자산을 사와서 붙인다면 엔지니어들의 노고가 아주 커질 것이다. SSD 컨트롤러도 전문 설계(팹리스) 업체들이 있을 만큼 쉬운 영역은 아닌데 이렇게 본인들이 직접 설계한 자산들중에 하나라도 경쟁 업체들보다 성능이 안나온다면 완제품 자체의 경쟁력 하락으로 이어질 가능성이 있다. 삼성의 GOS 사태를 보라. 삼성이 하고 있는 수 많은 사업 중에 ‘파운드리’라는 하나의 사업이 흔들리니 완제품 갤럭시의 경쟁력이 망가지는 것이다. 물론 천하의 애플이라도 SoC의 전체를 모두 직접 설계하지는 않을 것이다. 두고 볼 일이지만 다른 회사들보다 훨씬 높은 자체 설계 비중으로 지금까진 애플이 잘 하고 있는 것 같다.
인텔/AMD 진영이 사용하는 x86 명령어 세트의 구조적 한계도 있다. 애플/퀄컴(Qualcomm) 의 아키텍처는 ARM Holdings의 라이센스를 받아오기 이전에 더 원시적인 구분을 하자면 RISC 방식이다. RISC(Reduced Instruction Set Computer) 방식은 이름에서 알 수 있듯이 등장 자체부터 저전력을 염두에 둔 방식이다. RISC방식은 CPU가 한 번에 처리하는 명령어의 길이가 같다. ‘안녕하세’ ‘요제이름’ 이런 형태이다. 예시처럼 직관적이지 않아 추가적인 해석이 필요한 상황이 종종 생기지만 RISC방식의 최대 장점은 엄청난 파이프라이닝이다. 모든 명령어가 같은 길이를 가지니 CPU가 언제 한 명령을 끝낼지 예측이 가능하고, CPU의 자원을 빈틈없이 쓸 수 있다. 앞서 말한 M1칩의 압도적인 8-way의 디코더 개수도 RISC 구조 덕에 디코더가 단순화되어 많이 넣을 수 있게 된 것이다. 여기서 RISC의 전성비가 태생적으로 좋을 수밖에 없다. 인텔/AMD가 쓰는 AMD64 (x86) 방식은 CISC(Complex Intruction Set Computer)방식인데, 어셈블리어를 뜯어보면 명령어 개수 자체가 엄청 많다. 그만큼 짧은 줄에 고급 문법으로 표현할 수 있다는 장점이 있지만 명령어의 파이프라이닝이 어려워 전성비가 떨어진다. 최근에 CISC도 RISC의 그것들을 많이 차용했고, 디코더의 복잡한 명령어 예측 기능이 발달했다고는 하지만 결국 근본적으로 CISC일 뿐이다. 특히나 CISC 진영의 발목을 잡는 것은 하위호환성으로, 레거시와 서버 시장이 중요한 x86 진영은 아키텍처를 대대적으로 바꾸기가 어렵다.
그렇다고 애플의 천하가 계속될거라는 보장은 없다. 애플 실리콘의 핵심 연산부 설계를 하던 인력들이 '누비아(Nuvia)'라는 회사를 차리고 퀄컴에 인수되었다. TSMC 공정의 최대 고객사로서 애플이 최선단 공정 물량 확보 및 단가 협상에서 유리한건 사실이지만, 그렇다고 AMD나 퀄컴이 최선단 공정을 못 쓸 이유도 없다. 실제로 Snapdragon Gen 2는 약간의 시차가 있지만 애플이 사용했던 TSMC의 N4P 공정을 이용한 것으로 보인다. 물론 TSMC의 최우선 고객 애플이 TSMC의 3nm 물량을 대거 수주하며 또다시 한박자 앞서간다고 생각할 수도 있겠지만, TSMC의 초기 3nm 공정은 4nm와 큰 차이가 없다. 사상 첫 대량 양산 3nm 칩인 아이폰15 Pro의 A17 Pro의 전성비가 전작대비 향상치가 없고 성능 향상폭도 10% 내외라는 결과를 보면 알 수 있다. 후발주자들에게 기회가 생긴 것이다.
애플/퀄컴이 모바일에서 시작하여 체급을 높여 노트북 시장, 심지어는 M1 Ultra를 통해 고성능 데스크톱 시장까지 흡수하려고 하지만 한계는 명확하다. 기존의 전문가용 프로그램들은 대부분 x86으로 만들어져 있다. 지난 수십년 축적된 세월이 만들어준 장벽이다. 그 뛰어난 애플의 로제타2도 별 수 없다.인텔/AMD CPU가 전력을 많이 먹는다고는 하지만, 다시말하면 충분한 전력만 준다면 더 거뜬히 일을 해낼 것이다. 그래픽카드(GPU)와 같은 주변 장치 문제도 간과해서는 안된다. 애플/퀄컴의 AP에 내장된 그래픽은 훌륭한 성능이지만 전문가용 성능에는 전혀 미치지 못한다. 엔비디아의 고성능 그래픽카드를 쓰는 사람들이 애플/퀄컴의 칩셋을 사용할까? 애플이 자신들만의 칩, 자신들만의 OS를 가지고 고성능 시장을 개화시키기는 꽤나 어려울 것이다.
인텔/AMD의 숙제는 RISC진영과의 전성비 차이를 어떻게 극복하냐는 것이 큰 숙제이다. 인텔은 사실 이전부터 아톰 시리즈와 같이 저전력 x86 시장의 문을 두들겼지만 처참히 실패했다. 애플/퀄컴의 숙제는 기존 x86 진영과의 하드웨어, 소프트웨어 호환성이 아주 큰 숙제이다. 그 대단한 애플이라도 혼자서 모든 것을 할 수는 없다.
그렇지만 점점 그 둘의 경계는 모호해지고 있다. 이번 ARM 진영의 반란은 이전과 다르다. 과연 ARM 기반 칩셋으로 노트북을, 데스크탑을 만들 수 있을까 반신반의 하던 사람들에게 애플이 보기좋게 보여줬다. 양 진영이 치열하게 싸워 CPU의, 더 나아가 SoC의 큰 발전이 이루어졌으면 좋겠다. 앞으로의 싸움이 기대된다.