過去三年比的是「誰能訓練更大的模型」。現在戰場換了:模型每被呼叫一次都要花錢,推論變成跟營收直接綁定的經常性成本。於是晶片不再拚算力極限,而是拚每個 token 多便宜、多省電——一批專用晶片正用 GPU 五分之一的成本,搶這塊新市場。
競爭重心從訓練移到推論。訓練是一次性資本支出,推論是每次 API 呼叫的經常性成本,直接吃營收。通用 GPU 在低批次、低延遲的推論場景吃不滿、每 token 成本下不來;新一批專用推論晶片把模型權重直接燒進矽(Taalas HC1:TSMC N6、無 HBM/CoWoS、250W,每百萬 token 0.75 美分 vs GPU 3.79)。結局不是取代,而是通用+專用雙軌並存:GPU 顧訓練與多模型,專用晶片吃成熟、可預測的推論。
差別說穿了很簡單:訓練是一次性的研究支出,做完一個模型就結束;推論是每一次 API 呼叫都要付的錢,而且跟你的營收綁在一起,永遠在跑。當產品真的有人用,成本重心就從「蓋模型」變成「服務每一次呼叫」——硬體的優先順序,也跟著從算力極限轉向吞吐量與能耗。
這個轉變,最近半年的幾筆動作講得很清楚——
GPU 是為了「大量平行運算」生的,訓練時火力全開。但 Transformer(現在大模型的主流架構)推論的卡點不在算力,在資料搬運:權重和 KV cache(推論時暫存的上下文)大多放在晶片外的 HBM(高頻寬記憶體),每跑一步都要來回搬。再加上線上服務常是低批次、低延遲的零星請求,運算核心吃不滿,每個 token 攤下來的成本就壓不下去。
核心很強,但一直在等晶片外的資料搬進來。
既然瓶頸是搬資料,最激進的解法就是不要搬:把模型權重直接燒進晶片的 Mask ROM(出廠就燒死、改不了的唯讀記憶體),動態資料走片上 SRAM(晶片內的高速記憶體,離運算最近)。Taalas 的 HC1 就是這樣——權重變成電路的一部分,省掉幾乎所有對外部記憶體的存取,能耗與成本一起壓下來。代價是晶片只能跑那一個模型,但在成熟、固定的服務上,這筆交易划算。
HC1 ≈ B200 的 48 倍——其他晶片在這張圖上幾乎是貼地的細條。數字依 TrendForce 原文圖表。
數字依 TrendForce 原文(Taalas HC1)。
原文把這條賽道分成六種「技術路線」。共同目標都是少搬資料、把運算貼近記憶體,差別在手法——從把模型焊死在矽裡,到乾脆做一整片晶圓。分類與規格依 TrendForce 原文圖表整理。
乘加運算直接在記憶體裡做,省掉資料進出。最徹底的 Taalas 連權重都燒進矽。這也是目前最熱鬧的一類。
堆大量片上 SRAM 取代外部 HBM,繞開頻寬瓶頸。
不切晶粒,整片 12 吋晶圓做成單一顆,資料全留片上。
用開放的 RISC-V 指令集搭自家互連,走可擴充、偏通用的路線。
設計圍著「喂飽大模型的權重與 KV cache」轉,記憶體擺第一順位。
把資料路徑圍著張量收縮(tensor contraction)這個核心運算設計,主打能效。
CIM 是最熱鬧的一類,內部又分三條路,精度與能效各有取捨。
| 數位 CIM(DCIM) | 類比 CIM(ACIM) | 混合 CIM(Hybrid) | |
|---|---|---|---|
| 原理 | 用數位加法樹(DAT)累加 | 在類比域累加 | 依顯著性(saliency)在數位/類比間動態切換 |
| 精度 | 高 | 低 | 中 |
| 能效 | 低 | 高(約 3–8 bit 精度下) | 中 |
d-Matrix 走數位 CIM(DIMC);類比路線省電但精度低。資料依 TrendForce 原文圖表。
這條賽道已經很擁擠。但 TrendForce 的判斷不是「專用取代通用」,而是雙軌並存:GPU 繼續吃訓練與多模型環境,專用架構在成熟、可預測的推論場景切出自己的地盤。
專用推論加速器這條路上的主要名字(綠色=目前可在公開市場接觸到):
| 切角 | 觀察 | 公開市場可參與度 |
|---|---|---|
| 通用龍頭 | Nvidia 買下 Groq 推論技術($20B),自己補推論短板 | Nvidia ($NVDA) 已上市 |
| 已上市的專用股 | Cerebras 2026/5 IPO;綁定 OpenAI 三年 >$20B/750MW | Cerebras 已上市 |
| 「賣鏟子」共通受惠 | HC1 用 TSMC N6;多數新創也都靠先進製程代工+封裝+SRAM | 台積電 (2330.TW/$TSM) 等代工/封裝 |
| 多數仍未上市 | Taalas、d-Matrix、Untether AI、SambaNova、Groq、Etched、MatX… | 一級市場或潛在併購標的 |
規則換位:競爭從「訓練更大」變成「推論更便宜」。推論是與營收綁定的經常性成本,硬體的優先順序跟著轉向吞吐量與能耗。
GPU 的痛點:不在算力,在資料搬運。低批次、低延遲讓核心吃不滿,每 token 成本下不來。專用晶片把模型燒進矽,省掉搬運(HC1:0.75¢ vs 3.79¢、250W、無 HBM/CoWoS)。
投資視角:公開市場直接標的少(Nvidia、Cerebras);多數玩家還在一級市場。比較穩的共通受惠是「賣鏟子」的先進製程代工與封裝(台積電 N6)。
這篇出現的縮寫,一句話白話版。
| 名詞 | 一句話白話 |
|---|---|
| token | 模型處理文字的最小單位(約一個字或詞的一部分)。AI 服務常以「每百萬 token」計費。 |
| KV cache | 模型推論時把「已經讀進去的上下文」暫存起來的記憶,對話越長佔越多。 |
| HBM | 高頻寬記憶體。疊在 GPU 旁、又快又貴的記憶體,但在晶片外、用起來要來回搬。 |
| SRAM | 做在晶片內部的高速記憶體,離運算最近、最省搬運,但容量小。 |
| Mask ROM | 出廠時就「燒死」、之後改不了的唯讀記憶體。把模型燒進這裡=晶片只能跑那一個模型。 |
| CoWoS | 台積電的 2.5D 先進封裝,HBM 要靠它跟 GPU 整合;產能是當前供應鏈瓶頸之一。 |
| TDP | 晶片的散熱/功耗指標(熱設計功耗)。250W 氣冷=不必上液冷。 |
| N6 | 台積電 6 奈米製程。成熟、相對便宜,不是最尖端那一級。 |
| CIM | 運算記憶體一體(Computing-in-Memory):把運算搬進記憶體裡做,少搬資料。 |
| DCIM/ACIM | CIM 的數位版/類比版。數位精度高、類比省電;DIMC 是 d-Matrix 的數位 CIM。 |
| WSI | 晶圓級整合:整片 12 吋晶圓做成一顆超大晶片(Cerebras 的路線)。 |
| RISC-V | 開放、免授權費的指令集架構,誰都能拿來設計自己的處理器。 |
| tensor contraction | 張量收縮,是 AI 運算的核心數學操作(FuriosaAI 圍著它設計晶片)。 |