當算力堆上去,瓶頸換到了記憶體。COMPUTEX 2026(6/2–6/5,台北)主題「AI Together」,全場焦點圍著一件事:AI 的記憶體不再是單一一塊,而是一條從 GPU 一路下到網路儲存的階層。把這條階層攤開,就看懂了散熱與封裝這兩個新戰場,以及四家廠商在賭什麼。
AI 把記憶體切成一條階層(KV cache offloading):最快最熱的 HBM 在 GPU 旁(G1),往下是系統記憶體、本地/網路儲存(G2–G4),中間還多了一層 NVIDIA 新增的 G3.5 脈絡記憶體。堆得越高越熱,於是散熱成了新戰場(Samsung 的 HPB、SK hynix 的 ICE,熱阻 -30%+);要疊得更密,封裝也一路升級:從現在的熱壓鍵合(TC Bonder),到不靠凸塊、直接把兩片晶片貼合的混合鍵合(Hybrid Bonding),最後到整片晶圓疊整片的 WoW。SK hynix、Samsung、HANMI、PSMC 各押一段。
大模型推論時要記住前面一長串的上下文(context)——這些內容會被暫存成一份叫 KV cache 的資料,吃掉大量記憶體。但最快的 HBM 又貴又小,整份裝不下。解法是分層擺放:馬上要用的熱資料放在離 GPU 最近的 HBM,比較不急的往下丟到更便宜、更大、更慢的層級——這就是 KV cache offloading(把脈絡往下層搬)。NVIDIA 把它定義成一條清楚的階層,全場廠商都照這條線排產品。
越往上越快越熱越貴、越往下越大越冷越便宜。資料依在「熱度」決定該待在哪一層。
同一條階層,四家從不同段切入:原廠拚記憶體本體與散熱,設備廠拚鍵合,晶圓代工拚把記憶體疊進邏輯晶片。
記憶體疊得越高、跑得越快,熱就越集中在最底層的 Base Die(基底晶片),尤其是負責 HBM↔GPU 傳資料的那塊介面電路 D2D PHY(Die-to-Die 實體層,晶片對晶片的傳輸介面)。散熱不再是機殼風扇的事,而是要做進記憶體封裝裡——這次兩大原廠各端出一招。
| Samsung HPB | SK hynix iHBM(ICE) | |
|---|---|---|
| 全名 | Heat Path Block | Integrated Cooling Elements |
| 做法 | 在 D2D PHY 上做煙囪狀導熱結構,把熱往外導 | 把 ICE 冷卻元件堆疊在 D2D PHY 上 |
| 效果 | 降低熱阻、提升運作穩定度 | 熱阻預期下降 逾 30% |
| 首發 | HBM5 mockup(COMPUTEX 2026) | 先前已公布的 iHBM 平台 |
要把更多記憶體塞進同樣的空間,就得往上疊,而且把晶片「黏」起來的鍵合(bonding)要越來越密。這條路從現行的熱壓鍵合(TC Bonder),推到不靠凸塊、直接讓金屬面貼合的混合鍵合(Hybrid Bonding),最後到整片晶圓疊整片晶圓的 WoW。
看橫切面:兩片晶片之間的「接點」越來越小,最後消失、變成整片晶圓直接貼合。
同樣是把記憶體疊到邏輯上,差在「疊的單位」——一顆晶粒,還是一整片晶圓。
ESMT 的 aiPIM(AI Processing-In-Memory,把運算做進記憶體)是把 DRAM 的晶粒(die)疊在一顆比較大的邏輯晶粒上,一次一顆。PSMC 的 WoW 更狠,直接把整片記憶體晶圓疊上整片邏輯晶圓,一次做完再切,鍵合效率更高。把運算和記憶體疊在一起,就是「記憶體內運算」走向實體化。
A.I. Memory 的 AIM 3.0 是集團首個採混合鍵合的產品,10 TOPS @ 8W(用 8 瓦達到每秒 10 兆次運算,算力/功耗比很省電)。因為垂直堆疊、佔位很小,適合塞進 IP 攝影機這類邊緣裝置做即時人臉辨識——展板另標 AiM-200「30× CNN 效率、1/3 功耗」。
把這條階層翻成價值鏈:原廠賣記憶體本體與散熱,設備廠賣鍵合機台,代工生態把記憶體疊進晶片,GPU/平台定義整條階層的規則。下面依原文點名整理。
| 環節 | 角色 | 原文點名 | 看點 |
|---|---|---|---|
| HBM/記憶體原廠 | HBM、HBF、DDR、散熱架構 | SK hynix (000660.KS)・Samsung (005930.KS) | 散熱(HPB/ICE)成差異化新軸 |
| 封裝設備 | HBM TC Bonder/Fluxless | HANMI Semiconductor (042700.KS) | HBM5/HBM6 鍵合升級直接受惠 |
| 晶圓代工+生態 | WoW、3D AI Foundry | PSMC 力積電 (6770.TWO)+ AP Memory・ESMT・Syntronix・A.I. Memory | 把記憶體疊進邏輯,搶邊緣 AI |
| GPU/平台 | 定義 KV cache 階層(含新 G3.5) | NVIDIA ($NVDA) BlueField-4 STX | 規則制定者,帶動整條階層的料 |
記憶體階層化:AI 的記憶體不是一塊,是一條 G1→G4 的階層;KV cache 依熱度分層擺放,NVIDIA 還多塞了一層 G3.5。
散熱變門檻:疊高跑快,熱卡在 Base Die/D2D PHY。Samsung 用 HPB、SK hynix 用 ICE 把熱導出(熱阻 -30%+),散熱不好頻寬就開不滿。
封裝往上推:TC Bonder → Fluxless → Hybrid Bonding → 整片晶圓疊整片的 WoW。疊得越密,記憶體與運算越貼近(邊緣 AI:AIM 3.0,10 TOPS @ 8W)。
這篇出現的縮寫,一句話白話版。
| 名詞 | 一句話白話 |
|---|---|
| HBM | 高頻寬記憶體。疊在 GPU 旁、最快但最貴最小的記憶體。 |
| KV cache | 模型推論時,把「已經讀進去的上下文」暫存起來的記憶;對話越長佔越多。 |
| TSV | 穿過矽晶片的垂直導線(Through-Silicon Via),讓上下兩層晶片直接通電、堆疊。 |
| D2D PHY | 兩顆晶片之間(如 HBM↔GPU)負責傳資料的介面電路,也是最會發熱的地方。 |
| HPB/ICE | Samsung 與 SK hynix 各自的散熱結構,把熱從 D2D PHY 導出去。 |
| TC Bonder | 熱壓鍵合機:用熱和壓力把晶片接起來,目前 HBM 的主流做法。 |
| Fluxless | 鍵合時不用助焊劑(flux),更乾淨、精度更高。 |
| Hybrid Bonding | 混合鍵合:不靠凸塊,直接讓兩片晶片的金屬面貼合,能疊得更密。 |
| WoW | Wafer-on-Wafer:整片晶圓疊整片晶圓,比一顆一顆疊更有效率。 |
| aiPIM | ESMT 的做法:把 DRAM 晶粒疊在一顆較大的邏輯晶粒上(AI Processing-In-Memory)。比 WoW 小一級——疊「一顆」而非「一整片」。 |
| TOPS | 每秒兆次運算,衡量 AI 算力。「10 TOPS @ 8W」=用 8 瓦達到這個算力。 |
| G3.5 脈絡記憶體 | NVIDIA BlueField-4 STX 新增的一層:在 GPU 記憶體和一般儲存之間,用 SSD 專門存 KV cache,讓長脈絡不必全擠進昂貴的 HBM。 |
| LPDDR5X/DDR5 | 系統記憶體規格。DDR5 是標準伺服器記憶體;LPDDR5X 是低功耗版,省電,常用於 AI 伺服器與行動裝置。 |
| CXL/CMM-DDR5 | CXL 是讓 CPU、GPU、記憶體高速互連的介面;CMM-DDR5 就是透過 CXL 外掛、用來擴充容量的 DDR5 模組。 |
| SOCAMM2 | 新一代伺服器用的 LPDDR5X 記憶體模組(JEDEC 標準),省電、體積小、可插拔更換。 |