過去談 AI 缺貨,腦中只有 GPU 和 HBM。但推論(inference)這一段正長出一批全新的記憶體與儲存需求:模型回答前先「想」,吐出的 token 每年暴增逾 5 倍,KV cache 撐爆 GPU 記憶體,被迫一層層往下搬到 SSD;而 agentic AI 又把 CPU 的比重一路拉高。這篇把這條「推論 → 記憶體」的鏈,連同受惠的環節與代號,一次講清楚。
推論的記憶體需求來自兩股力量。其一,test-time scaling(測試時擴展,模型「思考」)讓輸出 token 暴增(>5×/年、每題 3–4 萬),KV cache(鍵值快取)隨對話變長膨脹、撐爆 GPU HBM,於是沿 5 層記憶體階層往下 offload,硬生生長出一個 SSD POD 新層級(Nvidia CMX + BlueField-4 DPU)。其二,agentic AI 把 CPU:GPU 從 1:4/1:8 拉到 約 1:1,CPU 主記憶體(LPDDR5X/SOCAMM)跟著漲。受惠:HBM4、SOCAMM、SSD/NAND、DPU、server CPU——台廠 南亞科(2408)也擠進了 Nvidia 主記憶體供應鏈。
以前模型「看完題目、直接答」,吃的記憶體有限。現在的推理模型(reasoning models,如 Anthropic(美·未上市)的 Claude 一類)會先「思考」——在心裡先寫一長串推理過程再給答案,這叫 test-time scaling(測試時擴展),是繼預訓練、後訓練之後的第三條 scaling law。思考=吐出更多 token,而 token 一多,要記住的東西就跟著爆。
一次推論要佔用的記憶體,主要是兩塊。模型權重是固定的——模型多大就佔多少,載入一次。真正的麻煩是 KV cache:它會隨著對話越來越長、同時服務的用戶越來越多而線性膨脹。
把模型的「腦袋」載進記憶體,大小由參數量決定,跑的過程中不太變。
例:一個量化到 1 byte/參數的模型,參數量幾顆 B(十億),權重就是幾 GB。算一次、佔住,相對單純。
模型每讀過一個 token,就把它的 Key/Value 存起來,之後生成新字時不必重算前文。省了算力,代價是記憶體。
紅色那兩項是關鍵:對話越長(序列長度)、同時服務的人越多(batch),KV cache 就越大——很快就撐爆 GPU 的 HBM。
推論分兩階段。預填(prefill)把整段提示一次讀完、建好初始快取;解碼(decode)逐字生成,每生成一個新 token 就往快取再疊一列。
重點:模型權重載一次就固定,但 KV cache 會隨「對話長度 × 同時用戶數」一路長大。當它超過 GPU HBM 的容量,就得想辦法把它搬到別的地方——這就帶出了下一節的記憶體階層。
KV cache 太大、GPU HBM 裝不下,但又不能丟掉(丟了就得重算,很貴)。Nvidia 的 Dynamo 軟體把 KV cache 沿著一條記憶體階層往下 offload:越上面越快越貴越小,越下面越慢越大越便宜。這條鏈裡,多出了一個專門接 KV cache 的新層級——G3.5 SSD POD。
這張圖照著原文的 Nvidia Dynamo 階層畫:G1 GPU HBM → G2 CPU RAM → G3 Local SSD → G3.5 SSD POD → G4 Shared Storage。紅色的 G3.5 SSD POD 是這波新增的層級——一個專門承接 KV cache 的 SSD 資源池,也是 NAND/SSD 需求被推升的源頭。
要把 KV cache 高效地搬到 SSD,Nvidia 端出一整套硬體。CMX(情境記憶體儲存平台)就是那個 G3.5 SSD POD 的實體,用 BlueField-4 DPU 當搬運工,搭配 Dynamo 軟體決定什麼時候搬、搬去哪。
DPU(資料處理器)是專門處理「資料搬運與儲存」的晶片,把這些雜事從 CPU/GPU 卸下來。BlueField-4 管 NVMe SSD、跑儲存服務,還幫 KV cache 做資料完整性與加密的 offload。COMPUTEX 2026 展出時,搭的是 SK hynix(韓 000660)的 PEB210 E1.S 與 PE9010 M.2 SSD。
Dynamo(2025/3 推出)是 KV cache offloading 的大腦:在 HBM → CPU DRAM → NVMe SSD → 外接儲存之間,智慧地搬移與共享 KV cache,需要時再快速叫回。它讓「往下搬」這件事不會拖慢推論。
第二股力量是 agentic AI(代理式 AI)。Agent 要規劃、呼叫工具、串多步流程,這些雜事很多落在 CPU 身上。結果是 CPU 對 GPU 的比重大幅上升——連帶把 CPU 的主記憶體(DRAM)需求也一起帶高。
傳統 LLM 推論以 GPU 為主、CPU 打雜;agentic AI 讓 CPU 的角色吃重,比重逼近 1:1。
Agent 的規劃、工具呼叫、流程編排大量落在 CPU。CPU 變多,每顆又要配大容量主記憶體,於是 LPDDR5X/SOCAMM 這類 CPU 端記憶體成了第二條成長曲線。
Vera CPU:88 核/176 緒(Olympus 自研 Arm 核),配 1.5 TB LPDDR5X、1.2 TB/s,是前代 Grace(72 核,≤480GB)的 3 倍容量。Vera Rubin Superchip=1 Vera + 2 Rubin GPU + 8 顆 SOCAMM(文中提其模組容量後來下修)。
SOCAMM(小尺寸壓接記憶體模組):Nvidia 主導、Micron($MU)/Samsung(韓 005930)/SK hynix(韓 000660)共同開發的可插拔 LPDDR5X 模組,能換、能擴,取代難維護的 RDIMM。SK hynix COMPUTEX 2026 展 SOCAMM2 + HBM4。
南亞科(Nanya,TW 2408)成為首家打進 Nvidia AI 伺服器「主記憶體(main memory)」供應鏈的台廠,供 LPDDR5X 給 Vera Rubin 平台(由台積電協助)。過去台廠在 AI 記憶體多在配角位置,這次切進的是 CPU 端 DRAM 這條新成長曲線。
原文附了一張 9 家廠商的 CPU 規格表。下面只聚焦 2026 的新旗艦(規格皆經 web 查證),看一個共同方向:核數一路往上,server CPU 成了 agentic AI 的新戰場。
| 廠商 | 晶片 | 製程 | 核 / 緒 | 核心架構 |
|---|---|---|---|---|
| Nvidia $NVDA | Vera | N3 | 88 / 176 | Olympus(自研 Arm) |
| AMD $AMD | EPYC Venice | N2(2nm) | 256 / 512 | Zen6c |
| Intel $INTC | Xeon 6+ Clearwater Forest | Intel 18A | 288 E-core | Darkmont |
| Ampere 美·軟銀子公司 | AmpereOne MX | N3 | 256 | Custom Arm |
| Arm $ARM | Arm AGI CPU | N3 | 136 | Neoverse V3 |
超大規模業者的自研 Arm CPU 也在同一方向堆核:AWS($AMZN)Graviton5、Google($GOOGL)Axion、Microsoft($MSFT)Cobalt 200。註:Clearwater Forest 原文表縮圖看似 144 核,但其公開規格為 288 顆 E-core(效率核)(Darkmont/Intel 18A),此處採查證值。
把整條鏈攤平:token 暴增 → KV cache 膨脹 → 往下 offload 到 SSD POD + agentic AI 拉高 CPU/RAM。每一段都對應一群受惠的記憶體、儲存、與晶片玩家。
| 受惠環節 | 為什麼受惠 | 玩家(代號) |
|---|---|---|
| HBM(GPU 記憶體) | 模型權重+第一層 KV cache 都在 HBM;HBM4 隨之放量 | SK hynix 韓 000660、Samsung 韓 005930、Micron $MU |
| LPDDR5X/SOCAMM | agentic AI 推升 CPU 主記憶體;可插拔模組成標配 | Micron $MU、Samsung 韓 005930、SK hynix 韓 000660、南亞科 TW 2408 |
| SSD / NAND | KV cache offload 長出 SSD POD 新層級,企業級 SSD/NAND 需求增 | SK hynix(含 Solidigm)韓 000660、Samsung 韓 005930、Micron $MU、Kioxia 日 285A、SanDisk $SNDK |
| DPU(搬移引擎) | CMX/SSD POD 靠 DPU 管 NVMe、做加密與完整性 offload | Nvidia $NVDA(BlueField-4) |
| Server CPU | agentic AI 把 CPU:GPU 拉到 1:1,server CPU 全面堆核 | Nvidia $NVDA(Vera)、AMD $AMD、Intel $INTC、Ampere(軟銀)、Arm $ARM、AWS $AMZN/Google $GOOGL/Microsoft $MSFT |
1. 推論會「思考」之後,token 暴增(>5×/年)→ KV cache 膨脹 → 撐爆 GPU HBM。這是新記憶體需求的源頭。
2. 裝不下就沿 5 層階層往下 offload,硬生生長出 G3.5 SSD POD(Nvidia CMX + BlueField-4 DPU)——SSD/NAND 的新需求。
3. Agentic AI 把 CPU:GPU 拉到 1:1,CPU 主記憶體(LPDDR5X/SOCAMM)成第二條成長曲線——台廠南亞科(2408)也擠了進來。
這篇的關鍵詞,一句話版。