TECH EXPLAINER · 記憶體 · COMPUTEX 2026

這屆 COMPUTEX，
主角是記憶體

當算力堆上去，瓶頸換到了記憶體。COMPUTEX 2026（6/2–6/5，台北）主題「AI Together」，全場焦點圍著一件事：AI 的記憶體不再是單一一塊，而是一條從 GPU 一路下到網路儲存的階層。把這條階層攤開，就看懂了散熱與封裝這兩個新戰場，以及四家廠商在賭什麼。

原創內容請參考原文： COMPUTEX 2026: Memory in Focus — TrendForce Insights（2026/06/05）

tl;dr

AI 把記憶體切成一條階層（KV cache offloading）：最快最熱的 HBM 在 GPU 旁（G1），往下是系統記憶體、本地／網路儲存（G2–G4），中間還多了一層 NVIDIA 新增的 G3.5 脈絡記憶體。堆得越高越熱，於是散熱成了新戰場（Samsung 的 HPB、SK hynix 的 ICE，熱阻 -30%+）；要疊得更密，封裝也一路升級：從現在的熱壓鍵合（TC Bonder），到不靠凸塊、直接把兩片晶片貼合的混合鍵合（Hybrid Bonding），最後到整片晶圓疊整片的 WoW。SK hynix、Samsung、HANMI、PSMC 各押一段。

記憶體變成「階層」問題

大模型推論時要記住前面一長串的上下文（context）——這些內容會被暫存成一份叫 KV cache 的資料，吃掉大量記憶體。但最快的 HBM 又貴又小，整份裝不下。解法是分層擺放：馬上要用的熱資料放在離 GPU 最近的 HBM，比較不急的往下丟到更便宜、更大、更慢的層級——這就是 KV cache offloading（把脈絡往下層搬）。NVIDIA 把它定義成一條清楚的階層，全場廠商都照這條線排產品。

KV cache 記憶體階層：從 GPU 到網路儲存

越往上越快越熱越貴、越往下越大越冷越便宜。資料依在「熱度」決定該待在哪一層。

為什麼多出一層 G3.5：這是 NVIDIA 用 BlueField-4 STX 在「GPU 記憶體」和「一般儲存」之間插進的新一層——用 SSD 當大容量緩衝，專門存放 KV cache（對話脈絡）。長對話的脈絡不必全擠進又貴又小的 HBM，可以往這層暫放，需要時再快速調回，吞吐量因此能拉高（NVIDIA 宣稱可達數倍）。

記憶體供應鏈的四家，秀了什麼

同一條階層，四家從不同段切入：原廠拚記憶體本體與散熱，設備廠拚鍵合，晶圓代工拚把記憶體疊進邏輯晶片。

記憶體原廠

SK hynix

HBF（High Bandwidth Flash，產品代號 AI-N B）：用 TSV（穿過晶片的垂直導線）把一層層 NAND 快閃記憶體像 HBM 一樣疊起來，衝高容量與頻寬，放在 G1。
展出 HBM2E→HBM4E 各世代樣品；G1 的 HBM3E 36GB（12 層堆疊）上 Blackwell Ultra。
SSD（PE9010 M.2、PEB210 E1.S）對應 NVIDIA 新增的 G3.5。
iHBM：把散熱元件（ICE）直接疊在最會發熱的傳輸介面（D2D PHY）上，把熱導走，熱阻預期 降 30%+。

記憶體原廠

Samsung

HBM5 mockup 首度亮出 HPB（Heat Path Block）散熱架構。
Base Die 製程競賽：HBM4E 用 4nm、HBM5 預計轉 2nm。
整條階層全有：HBM4(G1)、LPDDR5X(G2)、PM1763(G3)、PM1753(G3.5)、PM9D3a(G4)。
另展 CXL CMM-DDR5（2nd-gen，用 CXL 介面外掛、擴充容量的 DDR5 模組）與 192GB SOCAMM2（新一代省電、可插拔更換的 LPDDR5X 伺服器模組）。

封裝設備

HANMI Semiconductor

HBM TC Bonder 龍頭，秀為 HBM5／HBM6 設計的 Wide TC Bonder。
支援更大的晶片，可選 Fluxless（免助焊劑）版本，鍵合更乾淨、更精準。
定位：補上傳統 TC Bonder 與 Hybrid Bonder 之間的空缺。

晶圓代工生態

PSMC 力積電

以「3D AI Foundry」聯合 AP Memory、Syntronix、ESMT、A.I. Memory，橫跨 IP、IC 設計、代工、封測到終端應用一整條鏈。
WoW（Wafer-on-Wafer）：整片記憶體晶圓疊整片邏輯晶圓，8× 堆疊 DRAM。
夥伴 A.I. Memory AIM 3.0 首採混合鍵合（Hybrid Bonding），10 TOPS @ 8W（用 8 瓦做到每秒 10 兆次運算），省電、主打邊緣 AI。

新戰場：散熱

記憶體疊得越高、跑得越快，熱就越集中在最底層的 Base Die（基底晶片），尤其是負責 HBM↔GPU 傳資料的那塊介面電路 D2D PHY（Die-to-Die 實體層，晶片對晶片的傳輸介面）。散熱不再是機殼風扇的事，而是要做進記憶體封裝裡——這次兩大原廠各端出一招。

一疊記憶體晶片底部發燙，頂端伸出煙囪狀導熱結構把熱往外排，旁邊有散熱鰭片 — 把熱從疊高的記憶體裡導出來——像在晶片上裝一根煙囪。這就是 HPB／ICE 在做的事。

兩種把熱導出去的做法

	Samsung HPB	SK hynix iHBM（ICE）
全名	Heat Path Block	Integrated Cooling Elements
做法	在 D2D PHY 上做煙囪狀導熱結構，把熱往外導	把 ICE 冷卻元件堆疊在 D2D PHY 上
效果	降低熱阻、提升運作穩定度	熱阻預期下降逾 30%
首發	HBM5 mockup（COMPUTEX 2026）	先前已公布的 iHBM 平台

為什麼現在才吵散熱：HBM 進到 HBM4E／HBM5、Base Die 從 4nm 推進到 2nm，頻寬越拉越高，熱就卡在 D2D PHY 散不掉。散熱做不好，頻寬就開不滿——它從「加分項」變成「能不能用」。

把記憶體疊起來：封裝競賽

要把更多記憶體塞進同樣的空間，就得往上疊，而且把晶片「黏」起來的鍵合（bonding）要越來越密。這條路從現行的熱壓鍵合（TC Bonder），推到不靠凸塊、直接讓金屬面貼合的混合鍵合（Hybrid Bonding），最後到整片晶圓疊整片晶圓的 WoW。

鍵合密度，一路往上推

看橫切面：兩片晶片之間的「接點」越來越小，最後消失、變成整片晶圓直接貼合。

WoW vs aiPIM：疊整片晶圓，還是疊一顆晶粒

同樣是把記憶體疊到邏輯上，差在「疊的單位」——一顆晶粒，還是一整片晶圓。

ESMT 的 aiPIM（AI Processing-In-Memory，把運算做進記憶體）是把 DRAM 的晶粒（die）疊在一顆比較大的邏輯晶粒上，一次一顆。PSMC 的 WoW 更狠，直接把整片記憶體晶圓疊上整片邏輯晶圓，一次做完再切，鍵合效率更高。把運算和記憶體疊在一起，就是「記憶體內運算」走向實體化。

疊起來能幹嘛：邊緣 AI

A.I. Memory 的 AIM 3.0 是集團首個採混合鍵合的產品，10 TOPS @ 8W（用 8 瓦達到每秒 10 兆次運算，算力／功耗比很省電）。因為垂直堆疊、佔位很小，適合塞進 IP 攝影機這類邊緣裝置做即時人臉辨識——展板另標 AiM-200「30× CNN 效率、1/3 功耗」。

投資視角：誰卡在哪一段

把這條階層翻成價值鏈：原廠賣記憶體本體與散熱，設備廠賣鍵合機台，代工生態把記憶體疊進晶片，GPU／平台定義整條階層的規則。下面依原文點名整理。

價值鏈拆解（文中點名）

環節	角色	原文點名	看點
HBM／記憶體原廠	HBM、HBF、DDR、散熱架構	SK hynix (000660.KS)・Samsung (005930.KS)	散熱（HPB／ICE）成差異化新軸
封裝設備	HBM TC Bonder／Fluxless	HANMI Semiconductor (042700.KS)	HBM5／HBM6 鍵合升級直接受惠
晶圓代工＋生態	WoW、3D AI Foundry	PSMC 力積電 (6770.TWO)＋ AP Memory・ESMT・Syntronix・A.I. Memory	把記憶體疊進邏輯，搶邊緣 AI
GPU／平台	定義 KV cache 階層（含新 G3.5）	NVIDIA ($NVDA) BlueField-4 STX	規則制定者，帶動整條階層的料

一句話的脈絡：記憶體階層化＝每一層都有人賣料；散熱與先進鍵合是這一輪的新門檻。台股可留意 PSMC(6770.TWO) 的 3D 封裝生態與 ESMT、AP Memory 等夥伴；HBM 主戰場仍是韓系雙雄與設備端的 HANMI。

讀完這篇希望你能帶走的事

記憶體階層化：AI 的記憶體不是一塊，是一條 G1→G4 的階層；KV cache 依熱度分層擺放，NVIDIA 還多塞了一層 G3.5。

散熱變門檻：疊高跑快，熱卡在 Base Die／D2D PHY。Samsung 用 HPB、SK hynix 用 ICE 把熱導出（熱阻 -30%+），散熱不好頻寬就開不滿。

封裝往上推：TC Bonder → Fluxless → Hybrid Bonding → 整片晶圓疊整片的 WoW。疊得越密，記憶體與運算越貼近（邊緣 AI：AIM 3.0，10 TOPS @ 8W）。

名詞小抄：看到這些英文別慌

這篇出現的縮寫，一句話白話版。

名詞	一句話白話
HBM	高頻寬記憶體。疊在 GPU 旁、最快但最貴最小的記憶體。
KV cache	模型推論時，把「已經讀進去的上下文」暫存起來的記憶；對話越長佔越多。
TSV	穿過矽晶片的垂直導線（Through-Silicon Via），讓上下兩層晶片直接通電、堆疊。
D2D PHY	兩顆晶片之間（如 HBM↔GPU）負責傳資料的介面電路，也是最會發熱的地方。
HPB／ICE	Samsung 與 SK hynix 各自的散熱結構，把熱從 D2D PHY 導出去。
TC Bonder	熱壓鍵合機：用熱和壓力把晶片接起來，目前 HBM 的主流做法。
Fluxless	鍵合時不用助焊劑（flux），更乾淨、精度更高。
Hybrid Bonding	混合鍵合：不靠凸塊，直接讓兩片晶片的金屬面貼合，能疊得更密。
WoW	Wafer-on-Wafer：整片晶圓疊整片晶圓，比一顆一顆疊更有效率。
aiPIM	ESMT 的做法：把 DRAM 晶粒疊在一顆較大的邏輯晶粒上（AI Processing-In-Memory）。比 WoW 小一級——疊「一顆」而非「一整片」。
TOPS	每秒兆次運算，衡量 AI 算力。「10 TOPS @ 8W」＝用 8 瓦達到這個算力。
G3.5 脈絡記憶體	NVIDIA BlueField-4 STX 新增的一層：在 GPU 記憶體和一般儲存之間，用 SSD 專門存 KV cache，讓長脈絡不必全擠進昂貴的 HBM。
LPDDR5X／DDR5	系統記憶體規格。DDR5 是標準伺服器記憶體；LPDDR5X 是低功耗版，省電，常用於 AI 伺服器與行動裝置。
CXL／CMM-DDR5	CXL 是讓 CPU、GPU、記憶體高速互連的介面；CMM-DDR5 就是透過 CXL 外掛、用來擴充容量的 DDR5 模組。
SOCAMM2	新一代伺服器用的 LPDDR5X 記憶體模組（JEDEC 標準），省電、體積小、可插拔更換。

返回 Learn，看更多圖文好讀版

原創內容請參考原文 COMPUTEX 2026: Memory in Focus · TrendForce Insights（2026/06/05）· 中文重點整理 · 插圖由 Gemini 生成