TECH EXPLAINER · 記憶體 · COMPUTEX 2026

這屆 COMPUTEX,
主角是記憶體

當算力堆上去,瓶頸換到了記憶體。COMPUTEX 2026(6/2–6/5,台北)主題「AI Together」,全場焦點圍著一件事:AI 的記憶體不再是單一一塊,而是一條從 GPU 一路下到網路儲存的階層。把這條階層攤開,就看懂了散熱與封裝這兩個新戰場,以及四家廠商在賭什麼。

記憶體階層示意圖:GPU 在頂端發光,資料像瀑布往下流經一層層更大更冷的記憶體,最後匯入底部的大水池

tl;dr

AI 把記憶體切成一條階層(KV cache offloading):最快最熱的 HBM 在 GPU 旁(G1),往下是系統記憶體、本地/網路儲存(G2–G4),中間還多了一層 NVIDIA 新增的 G3.5 脈絡記憶體。堆得越高越熱,於是散熱成了新戰場(Samsung 的 HPB、SK hynix 的 ICE,熱阻 -30%+);要疊得更密,封裝也一路升級:從現在的熱壓鍵合(TC Bonder),到不靠凸塊、直接把兩片晶片貼合的混合鍵合(Hybrid Bonding),最後到整片晶圓疊整片的 WoW。SK hynix、Samsung、HANMI、PSMC 各押一段。

01

記憶體變成「階層」問題

大模型推論時要記住前面一長串的上下文(context)——這些內容會被暫存成一份叫 KV cache 的資料,吃掉大量記憶體。但最快的 HBM 又貴又小,整份裝不下。解法是分層擺放:馬上要用的熱資料放在離 GPU 最近的 HBM,比較不急的往下丟到更便宜、更大、更慢的層級——這就是 KV cache offloading(把脈絡往下層搬)。NVIDIA 把它定義成一條清楚的階層,全場廠商都照這條線排產品。

KV cache 記憶體階層:從 GPU 到網路儲存

G1 · GPU 層 HBM/HBF — 最快、最小、最熱 G2 · 系統記憶體 LPDDR5X/DDR5 G3 · 本地儲存 SSD(本機) G3.5 · 脈絡記憶體 NEW SSD — NVIDIA BlueField-4 STX 新增的一層 G4 · 網路儲存 SSD(網路)— 最慢、最大、最冷

越往上越快越熱越貴、越往下越大越冷越便宜。資料依在「熱度」決定該待在哪一層。

為什麼多出一層 G3.5:這是 NVIDIA 用 BlueField-4 STX 在「GPU 記憶體」和「一般儲存」之間插進的新一層——用 SSD 當大容量緩衝,專門存放 KV cache(對話脈絡)。長對話的脈絡不必全擠進又貴又小的 HBM,可以往這層暫放,需要時再快速調回,吞吐量因此能拉高(NVIDIA 宣稱可達數倍)。
02

記憶體供應鏈的四家,秀了什麼

同一條階層,四家從不同段切入:原廠拚記憶體本體與散熱,設備廠拚鍵合,晶圓代工拚把記憶體疊進邏輯晶片。

記憶體原廠

SK hynix

  • HBF(High Bandwidth Flash,產品代號 AI-N B):用 TSV(穿過晶片的垂直導線)把一層層 NAND 快閃記憶體像 HBM 一樣疊起來,衝高容量與頻寬,放在 G1。
  • 展出 HBM2E→HBM4E 各世代樣品;G1 的 HBM3E 36GB(12 層堆疊)上 Blackwell Ultra。
  • SSD(PE9010 M.2、PEB210 E1.S)對應 NVIDIA 新增的 G3.5。
  • iHBM:把散熱元件(ICE)直接疊在最會發熱的傳輸介面(D2D PHY)上,把熱導走,熱阻預期 降 30%+
記憶體原廠

Samsung

  • HBM5 mockup 首度亮出 HPB(Heat Path Block)散熱架構。
  • Base Die 製程競賽:HBM4E 用 4nm、HBM5 預計轉 2nm
  • 整條階層全有:HBM4(G1)、LPDDR5X(G2)、PM1763(G3)、PM1753(G3.5)、PM9D3a(G4)。
  • 另展 CXL CMM-DDR5(2nd-gen,用 CXL 介面外掛、擴充容量的 DDR5 模組)與 192GB SOCAMM2(新一代省電、可插拔更換的 LPDDR5X 伺服器模組)。
封裝設備

HANMI Semiconductor

  • HBM TC Bonder 龍頭,秀為 HBM5/HBM6 設計的 Wide TC Bonder。
  • 支援更大的晶片,可選 Fluxless(免助焊劑)版本,鍵合更乾淨、更精準。
  • 定位:補上傳統 TC Bonder 與 Hybrid Bonder 之間的空缺。
晶圓代工生態

PSMC 力積電

  • 以「3D AI Foundry」聯合 AP Memory、Syntronix、ESMT、A.I. Memory,橫跨 IP、IC 設計、代工、封測到終端應用一整條鏈。
  • WoW(Wafer-on-Wafer):整片記憶體晶圓疊整片邏輯晶圓,8× 堆疊 DRAM。
  • 夥伴 A.I. Memory AIM 3.0 首採混合鍵合(Hybrid Bonding),10 TOPS @ 8W(用 8 瓦做到每秒 10 兆次運算),省電、主打邊緣 AI。
03

新戰場:散熱

記憶體疊得越高、跑得越快,熱就越集中在最底層的 Base Die(基底晶片),尤其是負責 HBM↔GPU 傳資料的那塊介面電路 D2D PHY(Die-to-Die 實體層,晶片對晶片的傳輸介面)。散熱不再是機殼風扇的事,而是要做進記憶體封裝裡——這次兩大原廠各端出一招。

一疊記憶體晶片底部發燙,頂端伸出煙囪狀導熱結構把熱往外排,旁邊有散熱鰭片
把熱從疊高的記憶體裡導出來——像在晶片上裝一根煙囪。這就是 HPB/ICE 在做的事。

兩種把熱導出去的做法

Samsung HPBSK hynix iHBM(ICE)
全名Heat Path BlockIntegrated Cooling Elements
做法在 D2D PHY 上做煙囪狀導熱結構,把熱往外導把 ICE 冷卻元件堆疊在 D2D PHY 上
效果降低熱阻、提升運作穩定度熱阻預期下降 逾 30%
首發HBM5 mockup(COMPUTEX 2026)先前已公布的 iHBM 平台
為什麼現在才吵散熱:HBM 進到 HBM4E/HBM5、Base Die 從 4nm 推進到 2nm,頻寬越拉越高,熱就卡在 D2D PHY 散不掉。散熱做不好,頻寬就開不滿——它從「加分項」變成「能不能用」。
04

把記憶體疊起來:封裝競賽

要把更多記憶體塞進同樣的空間,就得往上疊,而且把晶片「黏」起來的鍵合(bonding)要越來越密。這條路從現行的熱壓鍵合(TC Bonder),推到不靠凸塊、直接讓金屬面貼合的混合鍵合(Hybrid Bonding),最後到整片晶圓疊整片晶圓的 WoW。

鍵合密度,一路往上推

看橫切面:兩片晶片之間的「接點」越來越小,最後消失、變成整片晶圓直接貼合。

凸塊(solder bump) TC Bonder 傳統熱壓鍵合 現行主流 細凸塊 · 免助焊劑 Fluxless TC HANMI Wide TC Bonder 大晶片、更準、補空缺 無凸塊 · 直接貼合 Hybrid Bonding 無凸塊直接鍵合 A.I. Memory AIM 3.0 整片晶圓直接疊 WoW 整片晶圓疊整片 PSMC · 8× 堆疊 DRAM 凸塊 → 細凸塊 → 無凸塊直接貼合 → 整片晶圓:接點越來越小、堆得越密 →

WoW vs aiPIM:疊整片晶圓,還是疊一顆晶粒

同樣是把記憶體疊到邏輯上,差在「疊的單位」——一顆晶粒,還是一整片晶圓。

aiPIM — 疊「晶粒」(die) Logic die(邏輯,較大) DRAM die 一次疊一顆:記憶體晶粒疊在較大的邏輯晶粒上 WoW — 疊「整片晶圓」(wafer) 記憶體晶圓 切割 整片疊整片,一次做完再切成多顆 — 效率更高

ESMT 的 aiPIM(AI Processing-In-Memory,把運算做進記憶體)是把 DRAM 的晶粒(die)疊在一顆比較大的邏輯晶粒上,一次一顆。PSMC 的 WoW 更狠,直接把整片記憶體晶圓疊上整片邏輯晶圓,一次做完再切,鍵合效率更高。把運算和記憶體疊在一起,就是「記憶體內運算」走向實體化。

疊起來能幹嘛:邊緣 AI

A.I. Memory 的 AIM 3.0 是集團首個採混合鍵合的產品,10 TOPS @ 8W(用 8 瓦達到每秒 10 兆次運算,算力/功耗比很省電)。因為垂直堆疊、佔位很小,適合塞進 IP 攝影機這類邊緣裝置做即時人臉辨識——展板另標 AiM-200「30× CNN 效率、1/3 功耗」。

05

投資視角:誰卡在哪一段

把這條階層翻成價值鏈:原廠賣記憶體本體與散熱,設備廠賣鍵合機台,代工生態把記憶體疊進晶片,GPU/平台定義整條階層的規則。下面依原文點名整理。

價值鏈拆解(文中點名)

環節角色原文點名看點
HBM/記憶體原廠HBM、HBF、DDR、散熱架構SK hynix (000660.KS)・Samsung (005930.KS)散熱(HPB/ICE)成差異化新軸
封裝設備HBM TC Bonder/FluxlessHANMI Semiconductor (042700.KS)HBM5/HBM6 鍵合升級直接受惠
晶圓代工+生態WoW、3D AI FoundryPSMC 力積電 (6770.TWO)+ AP Memory・ESMT・Syntronix・A.I. Memory把記憶體疊進邏輯,搶邊緣 AI
GPU/平台定義 KV cache 階層(含新 G3.5)NVIDIA ($NVDA) BlueField-4 STX規則制定者,帶動整條階層的料
一句話的脈絡:記憶體階層化=每一層都有人賣料;散熱與先進鍵合是這一輪的新門檻。台股可留意 PSMC(6770.TWO) 的 3D 封裝生態與 ESMTAP Memory 等夥伴;HBM 主戰場仍是韓系雙雄與設備端的 HANMI。

讀完這篇希望你能帶走的事

記憶體階層化:AI 的記憶體不是一塊,是一條 G1→G4 的階層;KV cache 依熱度分層擺放,NVIDIA 還多塞了一層 G3.5。

散熱變門檻:疊高跑快,熱卡在 Base Die/D2D PHY。Samsung 用 HPB、SK hynix 用 ICE 把熱導出(熱阻 -30%+),散熱不好頻寬就開不滿。

封裝往上推:TC Bonder → Fluxless → Hybrid Bonding → 整片晶圓疊整片的 WoW。疊得越密,記憶體與運算越貼近(邊緣 AI:AIM 3.0,10 TOPS @ 8W)。

名詞小抄:看到這些英文別慌

這篇出現的縮寫,一句話白話版。

名詞一句話白話
HBM高頻寬記憶體。疊在 GPU 旁、最快但最貴最小的記憶體。
KV cache模型推論時,把「已經讀進去的上下文」暫存起來的記憶;對話越長佔越多。
TSV穿過矽晶片的垂直導線(Through-Silicon Via),讓上下兩層晶片直接通電、堆疊。
D2D PHY兩顆晶片之間(如 HBM↔GPU)負責傳資料的介面電路,也是最會發熱的地方。
HPB/ICESamsung 與 SK hynix 各自的散熱結構,把熱從 D2D PHY 導出去。
TC Bonder熱壓鍵合機:用熱和壓力把晶片接起來,目前 HBM 的主流做法。
Fluxless鍵合時不用助焊劑(flux),更乾淨、精度更高。
Hybrid Bonding混合鍵合:不靠凸塊,直接讓兩片晶片的金屬面貼合,能疊得更密。
WoWWafer-on-Wafer:整片晶圓疊整片晶圓,比一顆一顆疊更有效率。
aiPIMESMT 的做法:把 DRAM 晶粒疊在一顆較大的邏輯晶粒上(AI Processing-In-Memory)。比 WoW 小一級——疊「一顆」而非「一整片」。
TOPS每秒兆次運算,衡量 AI 算力。「10 TOPS @ 8W」=用 8 瓦達到這個算力。
G3.5 脈絡記憶體NVIDIA BlueField-4 STX 新增的一層:在 GPU 記憶體和一般儲存之間,用 SSD 專門存 KV cache,讓長脈絡不必全擠進昂貴的 HBM。
LPDDR5X/DDR5系統記憶體規格。DDR5 是標準伺服器記憶體;LPDDR5X 是低功耗版,省電,常用於 AI 伺服器與行動裝置。
CXL/CMM-DDR5CXL 是讓 CPU、GPU、記憶體高速互連的介面;CMM-DDR5 就是透過 CXL 外掛、用來擴充容量的 DDR5 模組。
SOCAMM2新一代伺服器用的 LPDDR5X 記憶體模組(JEDEC 標準),省電、體積小、可插拔更換。
返回 Learn,看更多圖文好讀版
原創內容請參考原文 COMPUTEX 2026: Memory in Focus · TrendForce Insights(2026/06/05)· 中文重點整理 · 插圖由 Gemini 生成