閱讀筆記 / READING NOTE 我讀完後做的「圖文好讀版」整理，非原創內容。原文：TrendForce Insights — How AI Inference Is Creating New Memory Demand（2026/6/15）。 ← Learn

TrendForce 產業導讀 · AI 記憶體 / 儲存

AI 學會「思考」後，
開始大口吃記憶體

過去談 AI 缺貨，腦中只有 GPU 和 HBM。但推論（inference）這一段正長出一批全新的記憶體與儲存需求：模型回答前先「想」，吐出的 token 每年暴增逾 5 倍，KV cache 撐爆 GPU 記憶體，被迫一層層往下搬到 SSD；而 agentic AI 又把 CPU 的比重一路拉高。這篇把這條「推論 → 記憶體」的鏈，連同受惠的環節與代號，一次講清楚。

原文：TrendForce Insights（2026/6/15）·中文圖文整理：Jazz

一句話

推論的記憶體需求來自兩股力量。其一，test-time scaling（測試時擴展，模型「思考」）讓輸出 token 暴增（>5×/年、每題 3–4 萬），KV cache（鍵值快取）隨對話變長膨脹、撐爆 GPU HBM，於是沿 5 層記憶體階層往下 offload，硬生生長出一個 SSD POD 新層級（Nvidia CMX + BlueField-4 DPU）。其二，agentic AI 把 CPU:GPU 從 1:4／1:8 拉到 約 1:1，CPU 主記憶體（LPDDR5X／SOCAMM）跟著漲。受惠：HBM4、SOCAMM、SSD／NAND、DPU、server CPU——台廠 南亞科（2408）也擠進了 Nvidia 主記憶體供應鏈。

推論為什麼突然開始吃記憶體

以前模型「看完題目、直接答」，吃的記憶體有限。現在的推理模型（reasoning models，如 Anthropic（美·未上市）的 Claude 一類）會先「思考」——在心裡先寫一長串推理過程再給答案，這叫 test-time scaling（測試時擴展），是繼預訓練、後訓練之後的第三條 scaling law。思考＝吐出更多 token，而 token 一多，要記住的東西就跟著爆。

>5×／年

每題平均輸出 token 數的成長速度（自 2024 下半年起）

3–4 萬

目前每題平均輸出 token（推理模型範圍約 1–3 萬）

第 3 條

scaling law：預訓練 → 後訓練 → 測試時擴展（推論時加碼算力）

「AI 的記憶體系統，將會讓儲存系統被徹底改寫。」— Nvidia 執行長黃仁勳（Jensen Huang）。這篇就是在講這句話怎麼發生。

兩種記憶體足跡：權重是固定的，KV cache 會膨脹

一次推論要佔用的記憶體，主要是兩塊。模型權重是固定的——模型多大就佔多少，載入一次。真正的麻煩是 KV cache：它會隨著對話越來越長、同時服務的用戶越來越多而線性膨脹。

模型權重（Model Weights）— 固定

把模型的「腦袋」載進記憶體，大小由參數量決定，跑的過程中不太變。

模型權重 = 參數量 × 每參數位元組數

例：一個量化到 1 byte/參數的模型，參數量幾顆 B（十億），權重就是幾 GB。算一次、佔住，相對單純。

KV cache（鍵值快取）— 會膨脹

模型每讀過一個 token，就把它的 Key／Value 存起來，之後生成新字時不必重算前文。省了算力，代價是記憶體。

KV cache(Bytes) = 2 × 層數 × KV head 數 × head 維度 × 序列長度 × batch × 精度

紅色那兩項是關鍵：對話越長（序列長度）、同時服務的人越多（batch），KV cache 就越大——很快就撐爆 GPU 的 HBM。

KV cache 怎麼長大：prefill 一次建好，decode 每吐一字就 +1

推論分兩階段。預填（prefill）把整段提示一次讀完、建好初始快取；解碼（decode）逐字生成，每生成一個新 token 就往快取再疊一列。

重點：模型權重載一次就固定，但 KV cache 會隨「對話長度 × 同時用戶數」一路長大。當它超過 GPU HBM 的容量，就得想辦法把它搬到別的地方——這就帶出了下一節的記憶體階層。

裝不下怎麼辦：沿著 5 層階層往下搬

KV cache 太大、GPU HBM 裝不下，但又不能丟掉（丟了就得重算，很貴）。Nvidia 的 Dynamo 軟體把 KV cache 沿著一條記憶體階層往下 offload：越上面越快越貴越小，越下面越慢越大越便宜。這條鏈裡，多出了一個專門接 KV cache 的新層級——G3.5 SSD POD。

這張圖照著原文的 Nvidia Dynamo 階層畫：G1 GPU HBM → G2 CPU RAM → G3 Local SSD → G3.5 SSD POD → G4 Shared Storage。紅色的 G3.5 SSD POD 是這波新增的層級——一個專門承接 KV cache 的 SSD 資源池，也是 NAND／SSD 需求被推升的源頭。

搬家的機器：CMX 平台＋ BlueField-4 ＋ Dynamo

要把 KV cache 高效地搬到 SSD，Nvidia 端出一整套硬體。CMX（情境記憶體儲存平台）就是那個 G3.5 SSD POD 的實體，用 BlueField-4 DPU 當搬運工，搭配 Dynamo 軟體決定什麼時候搬、搬去哪。

~9,600 TB

CMX 每機櫃容量（情境記憶體儲存）

64 顆

每櫃 BlueField-4 DPU（4 DPU × 16 運算盤）

200 GB/s

BlueField-4 單顆儲存頻寬

2026/1

Nvidia CMX 發表時間

BlueField-4 DPU 在做什麼

DPU（資料處理器）是專門處理「資料搬運與儲存」的晶片，把這些雜事從 CPU／GPU 卸下來。BlueField-4 管 NVMe SSD、跑儲存服務，還幫 KV cache 做資料完整性與加密的 offload。COMPUTEX 2026 展出時，搭的是 SK hynix（韓 000660）的 PEB210 E1.S 與 PE9010 M.2 SSD。

Dynamo：決定 KV cache 住哪一層

Dynamo（2025/3 推出）是 KV cache offloading 的大腦：在 HBM → CPU DRAM → NVMe SSD → 外接儲存之間，智慧地搬移與共享 KV cache，需要時再快速叫回。它讓「往下搬」這件事不會拖慢推論。

「Agent 活在奈秒的世界，任何一刻的等待，都讓它無法前進到下一步。」— 黃仁勳。這就是為什麼 KV cache 搬家必須夠快。

Agentic AI：把 CPU 跟 RAM 也一起拉上來

第二股力量是 agentic AI（代理式 AI）。Agent 要規劃、呼叫工具、串多步流程，這些雜事很多落在 CPU 身上。結果是 CPU 對 GPU 的比重大幅上升——連帶把 CPU 的主記憶體（DRAM）需求也一起帶高。

CPU : GPU 的工作量比，從 1:4～1:8 走向約 1:1

傳統 LLM 推論以 GPU 為主、CPU 打雜；agentic AI 讓 CPU 的角色吃重，比重逼近 1:1。

Agent 的規劃、工具呼叫、流程編排大量落在 CPU。CPU 變多，每顆又要配大容量主記憶體，於是 LPDDR5X／SOCAMM 這類 CPU 端記憶體成了第二條成長曲線。

Nvidia Vera CPU ＋ SOCAMM

Vera CPU：88 核／176 緒（Olympus 自研 Arm 核），配 1.5 TB LPDDR5X、1.2 TB/s，是前代 Grace（72 核，≤480GB）的 3 倍容量。Vera Rubin Superchip＝1 Vera ＋ 2 Rubin GPU ＋ 8 顆 SOCAMM（文中提其模組容量後來下修）。

SOCAMM（小尺寸壓接記憶體模組）：Nvidia 主導、Micron（$MU）／Samsung（韓 005930）／SK hynix（韓 000660）共同開發的可插拔 LPDDR5X 模組，能換、能擴，取代難維護的 RDIMM。SK hynix COMPUTEX 2026 展 SOCAMM2 ＋ HBM4。

台廠連結：南亞科擠進 Nvidia 主記憶體鏈

南亞科（Nanya，TW 2408）成為首家打進 Nvidia AI 伺服器「主記憶體（main memory）」供應鏈的台廠，供 LPDDR5X 給 Vera Rubin 平台（由台積電協助）。過去台廠在 AI 記憶體多在配角位置，這次切進的是 CPU 端 DRAM 這條新成長曲線。

2026 server CPU 浪潮：大家都在堆核、堆記憶體通道

原文附了一張 9 家廠商的 CPU 規格表。下面只聚焦 2026 的新旗艦（規格皆經 web 查證），看一個共同方向：核數一路往上，server CPU 成了 agentic AI 的新戰場。

廠商	晶片	製程	核 / 緒	核心架構
Nvidia $NVDA	Vera	N3	88 / 176	Olympus（自研 Arm）
AMD $AMD	EPYC Venice	N2（2nm）	256 / 512	Zen6c
Intel $INTC	Xeon 6+ Clearwater Forest	Intel 18A	288 E-core	Darkmont
Ampere 美·軟銀子公司	AmpereOne MX	N3	256	Custom Arm
Arm $ARM	Arm AGI CPU	N3	136	Neoverse V3

超大規模業者的自研 Arm CPU 也在同一方向堆核：AWS（$AMZN）Graviton5、Google（$GOOGL）Axion、Microsoft（$MSFT）Cobalt 200。註：Clearwater Forest 原文表縮圖看似 144 核，但其公開規格為 288 顆 E-core（效率核）（Darkmont／Intel 18A），此處採查證值。

投資地圖：推論記憶體，誰吃得到

把整條鏈攤平：token 暴增 → KV cache 膨脹 → 往下 offload 到 SSD POD ＋ agentic AI 拉高 CPU/RAM。每一段都對應一群受惠的記憶體、儲存、與晶片玩家。

受惠環節	為什麼受惠	玩家（代號）
HBM（GPU 記憶體）	模型權重＋第一層 KV cache 都在 HBM；HBM4 隨之放量	SK hynix 韓 000660、Samsung 韓 005930、Micron $MU
LPDDR5X／SOCAMM	agentic AI 推升 CPU 主記憶體；可插拔模組成標配	Micron $MU、Samsung 韓 005930、SK hynix 韓 000660、南亞科 TW 2408
SSD / NAND	KV cache offload 長出 SSD POD 新層級，企業級 SSD/NAND 需求增	SK hynix（含 Solidigm）韓 000660、Samsung 韓 005930、Micron $MU、Kioxia 日 285A、SanDisk $SNDK
DPU（搬移引擎）	CMX／SSD POD 靠 DPU 管 NVMe、做加密與完整性 offload	Nvidia $NVDA（BlueField-4）
Server CPU	agentic AI 把 CPU:GPU 拉到 1:1，server CPU 全面堆核	Nvidia $NVDA（Vera）、AMD $AMD、Intel $INTC、Ampere（軟銀）、Arm $ARM、AWS $AMZN／Google $GOOGL／Microsoft $MSFT

舊故事是「GPU ＋ HBM」；新故事多了三條線——KV cache 撐出的 SSD/NAND、agentic 拉動的 CPU 主記憶體（含台廠南亞科切入），以及搬運用的 DPU。

如果你只記得三件事

1. 推論會「思考」之後，token 暴增（>5×/年）→ KV cache 膨脹 → 撐爆 GPU HBM。這是新記憶體需求的源頭。

2. 裝不下就沿 5 層階層往下 offload，硬生生長出 G3.5 SSD POD（Nvidia CMX ＋ BlueField-4 DPU）——SSD／NAND 的新需求。

3. Agentic AI 把 CPU:GPU 拉到 1:1，CPU 主記憶體（LPDDR5X／SOCAMM）成第二條成長曲線——台廠南亞科（2408）也擠了進來。

名詞小抄

這篇的關鍵詞，一句話版。

推論 inference: 模型訓練好之後、實際拿來回答問題的階段。本文主角——它正長出新的記憶體需求。
test-time scaling 測試時擴展: 讓模型在「回答時」多花算力先思考（吐出推理過程）再給答案，第三條 scaling law。思考＝更多 token。
token: 模型處理文字的最小單位（約一個詞或字的一部分）。輸出 token 越多，要記住的 KV cache 越大。
KV cache Key-Value cache: 鍵值快取。把讀過 token 的 Key／Value 存起來避免重算，省算力但吃記憶體；隨對話長度 × 用戶數膨脹。
prefill / decode 預填 / 解碼: 推論兩階段：prefill 一次讀完提示建初始快取；decode 逐字生成，每字往快取疊一列。
HBM High Bandwidth Memory: 高頻寬記憶體，堆疊在 GPU 旁的最快記憶體，也最貴最小。階層的第一層（G1）。
offloading 卸載: 把裝不下的資料（這裡是 KV cache）從快的記憶體搬到慢一點、但更大更便宜的儲存。
SSD POD: 專門承接 KV cache 的 SSD 資源池，階層裡新增的 G3.5 層。NAND／SSD 新需求的源頭。
CMX Context Memory Storage Platform: Nvidia 的情境記憶體儲存平台（2026/1），每櫃約 9,600 TB，就是 SSD POD 的實體。
DPU Data Processing Unit: 資料處理器。專管資料搬運與儲存的晶片，把這些雜事從 CPU/GPU 卸下。BlueField-4 是代表。
Dynamo: Nvidia 的 KV cache offloading 軟體（2025/3），決定 KV cache 該住在階層的哪一層、何時搬。
NVMe: 現代 SSD 直連 CPU/DPU 的高速介面協定，比傳統 SATA 快很多。
agentic AI 代理式 AI: 會自己規劃、呼叫工具、串多步流程的 AI。很多雜事落在 CPU，因此把 CPU/RAM 需求拉高。
SOCAMM Small Outline Compression Attached Memory Module: Nvidia 主導的可插拔 LPDDR5X 記憶體模組，能換能擴，取代難維護的 RDIMM。SOCAMM2 是次世代。
LPDDR5X Low Power DDR5X: 低功耗 DRAM，原用於行動裝置，現被搬進 AI 伺服器當 CPU 主記憶體（省電、密度高）。
Vera / Grace: Nvidia 的 Arm 伺服器 CPU：Grace 是前代（72 核），Vera 是新代（88 核、3 倍記憶體容量）。
NVLink-C2C: Nvidia 連接 CPU 與 GPU 的高速互連，讓兩者共享一致的記憶體位址空間。
TCO Total Cost of Ownership: 總持有成本。把 KV cache 往下 offload，是為了用較便宜的儲存換算力、壓低整體成本。

返回 Learn，看更多圖文好讀版

原文 How AI Inference Is Creating New Memory Demand · TrendForce Insights（2026/6/15）· 中文圖文整理：Jazz Lien · 主視覺由 Gemini 生成（示意）· 個股僅為產業鏈標的整理 · 規格經 web 查證