閱讀筆記 / READING NOTE 我讀完後做的「圖文好讀版」整理,非原創內容。原文:TrendForce Insights — How AI Inference Is Creating New Memory Demand(2026/6/15)。 ← Learn
TrendForce 產業導讀 · AI 記憶體 / 儲存

AI 學會「思考」後,
開始大口吃記憶體

過去談 AI 缺貨,腦中只有 GPU 和 HBM。但推論(inference)這一段正長出一批全新的記憶體與儲存需求:模型回答前先「想」,吐出的 token 每年暴增逾 5 倍,KV cache 撐爆 GPU 記憶體,被迫一層層往下搬到 SSD;而 agentic AI 又把 CPU 的比重一路拉高。這篇把這條「推論 → 記憶體」的鏈,連同受惠的環節與代號,一次講清楚。

一顆發光的 AI 晶片灑下大量 token 方塊,溢流並填滿往下逐層變大的儲存階層示意插畫

一句話

推論的記憶體需求來自兩股力量。其一,test-time scaling(測試時擴展,模型「思考」)讓輸出 token 暴增(>5×/年、每題 3–4 萬),KV cache(鍵值快取)隨對話變長膨脹、撐爆 GPU HBM,於是沿 5 層記憶體階層往下 offload,硬生生長出一個 SSD POD 新層級(Nvidia CMX + BlueField-4 DPU)。其二,agentic AI 把 CPU:GPU 從 1:4/1:8 拉到 約 1:1,CPU 主記憶體(LPDDR5X/SOCAMM)跟著漲。受惠:HBM4、SOCAMM、SSD/NAND、DPU、server CPU——台廠 南亞科(2408)也擠進了 Nvidia 主記憶體供應鏈。

01

推論為什麼突然開始吃記憶體

以前模型「看完題目、直接答」,吃的記憶體有限。現在的推理模型(reasoning models,如 Anthropic(美·未上市)的 Claude 一類)會先「思考」——在心裡先寫一長串推理過程再給答案,這叫 test-time scaling(測試時擴展),是繼預訓練、後訓練之後的第三條 scaling law。思考=吐出更多 token,而 token 一多,要記住的東西就跟著爆。

>5×/年
每題平均輸出 token 數的成長速度(自 2024 下半年起)
3–4 萬
目前每題平均輸出 token(推理模型範圍約 1–3 萬)
第 3 條
scaling law:預訓練 → 後訓練 → 測試時擴展(推論時加碼算力)
「AI 的記憶體系統,將會讓儲存系統被徹底改寫。」— Nvidia 執行長黃仁勳(Jensen Huang)。這篇就是在講這句話怎麼發生。
02

兩種記憶體足跡:權重是固定的,KV cache 會膨脹

一次推論要佔用的記憶體,主要是兩塊。模型權重是固定的——模型多大就佔多少,載入一次。真正的麻煩是 KV cache:它會隨著對話越來越長、同時服務的用戶越來越多而線性膨脹

模型權重(Model Weights)— 固定

把模型的「腦袋」載進記憶體,大小由參數量決定,跑的過程中不太變。

模型權重 = 參數量 × 每參數位元組數

例:一個量化到 1 byte/參數的模型,參數量幾顆 B(十億),權重就是幾 GB。算一次、佔住,相對單純。

KV cache(鍵值快取)— 會膨脹

模型每讀過一個 token,就把它的 Key/Value 存起來,之後生成新字時不必重算前文。省了算力,代價是記憶體

KV cache(Bytes) = 2 × 層數 × KV head 數 × head 維度 × 序列長度 × batch × 精度

紅色那兩項是關鍵:對話越長(序列長度)、同時服務的人越多(batch),KV cache 就越大——很快就撐爆 GPU 的 HBM。

KV cache 怎麼長大:prefill 一次建好,decode 每吐一字就 +1

推論分兩階段。預填(prefill)把整段提示一次讀完、建好初始快取;解碼(decode)逐字生成,每生成一個新 token 就往快取再疊一列。

① 預填 Prefill 整段提示一次讀完 → 建初始 KV 快取 T1 T2 T3 T4 提示 prompt(4 個 token) KV 快取 4 列(每 token 一列 K/V) ② 解碼 Decode 逐字生成 → 每生成 1 個 token,快取就疊 +1 列 T5 T6 生成第 5 字 第 6 字 … 5 列 7 列…持續長大 對話越長 → 快取越大 乘上 batch(同時的用戶) 很快撐爆 GPU HBM

重點:模型權重載一次就固定,但 KV cache 會隨「對話長度 × 同時用戶數」一路長大。當它超過 GPU HBM 的容量,就得想辦法把它搬到別的地方——這就帶出了下一節的記憶體階層。

03

裝不下怎麼辦:沿著 5 層階層往下搬

KV cache 太大、GPU HBM 裝不下,但又不能丟掉(丟了就得重算,很貴)。Nvidia 的 Dynamo 軟體把 KV cache 沿著一條記憶體階層往下 offload:越上面越快越貴越小,越下面越慢越大越便宜。這條鏈裡,多出了一個專門接 KV cache 的新層級——G3.5 SSD POD

小·貴 大·便宜 G1 · GPU HBM 最快、最貴、最小——KV cache 的第一站 G2 · CPU RAM CPU 主記憶體(DRAM)——溢出 HBM 先放這 G3 · Local SSD 本機 NVMe SSD(直連硬碟) G3.5 · SSD POD 本文新增的新層級 ← KV cache 專用 SSD 池(新需求所在) G4 · Shared Storage 共享儲存——最慢、最大、最便宜 KV cache 沿階層往下 offload(裝不下就往下放,需要時再叫回來)

這張圖照著原文的 Nvidia Dynamo 階層畫:G1 GPU HBM → G2 CPU RAM → G3 Local SSD → G3.5 SSD POD → G4 Shared Storage。紅色的 G3.5 SSD POD 是這波新增的層級——一個專門承接 KV cache 的 SSD 資源池,也是 NAND/SSD 需求被推升的源頭。

04

搬家的機器:CMX 平台 + BlueField-4 + Dynamo

要把 KV cache 高效地搬到 SSD,Nvidia 端出一整套硬體。CMX(情境記憶體儲存平台)就是那個 G3.5 SSD POD 的實體,用 BlueField-4 DPU 當搬運工,搭配 Dynamo 軟體決定什麼時候搬、搬去哪。

~9,600 TB
CMX 每機櫃容量(情境記憶體儲存)
64 顆
每櫃 BlueField-4 DPU(4 DPU × 16 運算盤)
200 GB/s
BlueField-4 單顆儲存頻寬
2026/1
Nvidia CMX 發表時間

BlueField-4 DPU 在做什麼

DPU(資料處理器)是專門處理「資料搬運與儲存」的晶片,把這些雜事從 CPU/GPU 卸下來。BlueField-4 管 NVMe SSD、跑儲存服務,還幫 KV cache 做資料完整性與加密的 offload。COMPUTEX 2026 展出時,搭的是 SK hynix(韓 000660)PEB210 E1.SPE9010 M.2 SSD。

Dynamo:決定 KV cache 住哪一層

Dynamo(2025/3 推出)是 KV cache offloading 的大腦:在 HBM → CPU DRAM → NVMe SSD → 外接儲存之間,智慧地搬移與共享 KV cache,需要時再快速叫回。它讓「往下搬」這件事不會拖慢推論。

「Agent 活在奈秒的世界,任何一刻的等待,都讓它無法前進到下一步。」— 黃仁勳。這就是為什麼 KV cache 搬家必須夠快。
05

Agentic AI:把 CPU 跟 RAM 也一起拉上來

第二股力量是 agentic AI(代理式 AI)。Agent 要規劃、呼叫工具、串多步流程,這些雜事很多落在 CPU 身上。結果是 CPU 對 GPU 的比重大幅上升——連帶把 CPU 的主記憶體(DRAM)需求也一起帶高。

CPU : GPU 的工作量比,從 1:4~1:8 走向約 1:1

傳統 LLM 推論以 GPU 為主、CPU 打雜;agentic AI 讓 CPU 的角色吃重,比重逼近 1:1。

傳統 LLM 推論 CPU : GPU ≈ 1 : 4 ~ 1 : 8(GPU 為主) CPU GPU GPU GPU GPU 1 顆 CPU 配 4~8 顆 GPU Agentic AI CPU : GPU ≈ 1 : 1(CPU 比重大增) CPU GPU 1 顆 CPU 配約 1 顆 GPU 更多 CPU = 更多 DRAM 每顆 server CPU 都要插上 大量 LPDDR5X/SOCAMM 主記憶體 → DRAM 需求第二條成長曲線

Agent 的規劃、工具呼叫、流程編排大量落在 CPU。CPU 變多,每顆又要配大容量主記憶體,於是 LPDDR5X/SOCAMM 這類 CPU 端記憶體成了第二條成長曲線。

Nvidia Vera CPU + SOCAMM

Vera CPU88 核/176 緒(Olympus 自研 Arm 核),配 1.5 TB LPDDR5X、1.2 TB/s,是前代 Grace(72 核,≤480GB)的 3 倍容量。Vera Rubin Superchip=1 Vera + 2 Rubin GPU + 8 顆 SOCAMM(文中提其模組容量後來下修)。

SOCAMM(小尺寸壓接記憶體模組):Nvidia 主導、Micron($MU)/Samsung(韓 005930)/SK hynix(韓 000660)共同開發的可插拔 LPDDR5X 模組,能換、能擴,取代難維護的 RDIMM。SK hynix COMPUTEX 2026 展 SOCAMM2 + HBM4

台廠連結:南亞科擠進 Nvidia 主記憶體鏈

南亞科(Nanya,TW 2408)成為首家打進 Nvidia AI 伺服器「主記憶體(main memory)」供應鏈的台廠,供 LPDDR5X 給 Vera Rubin 平台(由台積電協助)。過去台廠在 AI 記憶體多在配角位置,這次切進的是 CPU 端 DRAM 這條新成長曲線。

2026 server CPU 浪潮:大家都在堆核、堆記憶體通道

原文附了一張 9 家廠商的 CPU 規格表。下面只聚焦 2026 的新旗艦(規格皆經 web 查證),看一個共同方向:核數一路往上,server CPU 成了 agentic AI 的新戰場。

廠商晶片製程核 / 緒核心架構
Nvidia $NVDAVeraN388 / 176Olympus(自研 Arm)
AMD $AMDEPYC VeniceN2(2nm)256 / 512Zen6c
Intel $INTCXeon 6+ Clearwater ForestIntel 18A288 E-coreDarkmont
Ampere 美·軟銀子公司AmpereOne MXN3256Custom Arm
Arm $ARMArm AGI CPUN3136Neoverse V3

超大規模業者的自研 Arm CPU 也在同一方向堆核:AWS($AMZN)Graviton5、Google($GOOGL)Axion、Microsoft($MSFT)Cobalt 200。註:Clearwater Forest 原文表縮圖看似 144 核,但其公開規格為 288 顆 E-core(效率核)(Darkmont/Intel 18A),此處採查證值。

06

投資地圖:推論記憶體,誰吃得到

把整條鏈攤平:token 暴增 → KV cache 膨脹 → 往下 offload 到 SSD POD + agentic AI 拉高 CPU/RAM。每一段都對應一群受惠的記憶體、儲存、與晶片玩家。

受惠環節為什麼受惠玩家(代號)
HBM(GPU 記憶體)模型權重+第一層 KV cache 都在 HBM;HBM4 隨之放量SK hynix 韓 000660、Samsung 韓 005930、Micron $MU
LPDDR5X/SOCAMMagentic AI 推升 CPU 主記憶體;可插拔模組成標配Micron $MU、Samsung 韓 005930、SK hynix 韓 000660南亞科 TW 2408
SSD / NANDKV cache offload 長出 SSD POD 新層級,企業級 SSD/NAND 需求增SK hynix(含 Solidigm)韓 000660、Samsung 韓 005930、Micron $MU、Kioxia 日 285A、SanDisk $SNDK
DPU(搬移引擎)CMX/SSD POD 靠 DPU 管 NVMe、做加密與完整性 offloadNvidia $NVDA(BlueField-4)
Server CPUagentic AI 把 CPU:GPU 拉到 1:1,server CPU 全面堆核Nvidia $NVDA(Vera)、AMD $AMD、Intel $INTC、Ampere(軟銀)、Arm $ARM、AWS $AMZN/Google $GOOGL/Microsoft $MSFT
舊故事是「GPU + HBM」;新故事多了三條線——KV cache 撐出的 SSD/NAND、agentic 拉動的 CPU 主記憶體(含台廠南亞科切入),以及搬運用的 DPU。

如果你只記得三件事

1. 推論會「思考」之後,token 暴增(>5×/年)→ KV cache 膨脹 → 撐爆 GPU HBM。這是新記憶體需求的源頭。

2. 裝不下就沿 5 層階層往下 offload,硬生生長出 G3.5 SSD POD(Nvidia CMX + BlueField-4 DPU)——SSD/NAND 的新需求。

3. Agentic AI 把 CPU:GPU 拉到 1:1,CPU 主記憶體(LPDDR5X/SOCAMM)成第二條成長曲線——台廠南亞科(2408)也擠了進來。

07

名詞小抄

這篇的關鍵詞,一句話版。

推論 inference
模型訓練好之後、實際拿來回答問題的階段。本文主角——它正長出新的記憶體需求。
test-time scaling 測試時擴展
讓模型在「回答時」多花算力先思考(吐出推理過程)再給答案,第三條 scaling law。思考=更多 token。
token
模型處理文字的最小單位(約一個詞或字的一部分)。輸出 token 越多,要記住的 KV cache 越大。
KV cache Key-Value cache
鍵值快取。把讀過 token 的 Key/Value 存起來避免重算,省算力但吃記憶體;隨對話長度 × 用戶數膨脹。
prefill / decode 預填 / 解碼
推論兩階段:prefill 一次讀完提示建初始快取;decode 逐字生成,每字往快取疊一列。
HBM High Bandwidth Memory
高頻寬記憶體,堆疊在 GPU 旁的最快記憶體,也最貴最小。階層的第一層(G1)。
offloading 卸載
把裝不下的資料(這裡是 KV cache)從快的記憶體搬到慢一點、但更大更便宜的儲存。
SSD POD
專門承接 KV cache 的 SSD 資源池,階層裡新增的 G3.5 層。NAND/SSD 新需求的源頭。
CMX Context Memory Storage Platform
Nvidia 的情境記憶體儲存平台(2026/1),每櫃約 9,600 TB,就是 SSD POD 的實體。
DPU Data Processing Unit
資料處理器。專管資料搬運與儲存的晶片,把這些雜事從 CPU/GPU 卸下。BlueField-4 是代表。
Dynamo
Nvidia 的 KV cache offloading 軟體(2025/3),決定 KV cache 該住在階層的哪一層、何時搬。
NVMe
現代 SSD 直連 CPU/DPU 的高速介面協定,比傳統 SATA 快很多。
agentic AI 代理式 AI
會自己規劃、呼叫工具、串多步流程的 AI。很多雜事落在 CPU,因此把 CPU/RAM 需求拉高。
SOCAMM Small Outline Compression Attached Memory Module
Nvidia 主導的可插拔 LPDDR5X 記憶體模組,能換能擴,取代難維護的 RDIMM。SOCAMM2 是次世代。
LPDDR5X Low Power DDR5X
低功耗 DRAM,原用於行動裝置,現被搬進 AI 伺服器當 CPU 主記憶體(省電、密度高)。
Vera / Grace
Nvidia 的 Arm 伺服器 CPU:Grace 是前代(72 核),Vera 是新代(88 核、3 倍記憶體容量)。
NVLink-C2C
Nvidia 連接 CPU 與 GPU 的高速互連,讓兩者共享一致的記憶體位址空間。
TCO Total Cost of Ownership
總持有成本。把 KV cache 往下 offload,是為了用較便宜的儲存換算力、壓低整體成本。
返回 Learn,看更多圖文好讀版
原文 How AI Inference Is Creating New Memory Demand · TrendForce Insights(2026/6/15)· 中文圖文整理:Jazz Lien · 主視覺由 Gemini 生成(示意)· 個股僅為產業鏈標的整理 · 規格經 web 查證