TECH EXPLAINER · AI 晶片 · 投資視角

推論經濟來了,
AI 晶片規則重寫

過去三年比的是「誰能訓練更大的模型」。現在戰場換了:模型每被呼叫一次都要花錢,推論變成跟營收直接綁定的經常性成本。於是晶片不再拚算力極限,而是拚每個 token 多便宜、多省電——一批專用晶片正用 GPU 五分之一的成本,搶這塊新市場。

推論經濟示意圖:大量小小的 token 高速通過一道計費閘門,每通過一個就投下一枚硬幣,一旁有一顆專用晶片供電

tl;dr

競爭重心從訓練移到推論。訓練是一次性資本支出,推論是每次 API 呼叫的經常性成本,直接吃營收。通用 GPU 在低批次、低延遲的推論場景吃不滿、每 token 成本下不來;新一批專用推論晶片把模型權重直接燒進矽(Taalas HC1:TSMC N6、無 HBM/CoWoS、250W,每百萬 token 0.75 美分 vs GPU 3.79)。結局不是取代,而是通用+專用雙軌並存:GPU 顧訓練與多模型,專用晶片吃成熟、可預測的推論。

01

遊戲規則被改寫了

差別說穿了很簡單:訓練是一次性的研究支出,做完一個模型就結束;推論是每一次 API 呼叫都要付的錢,而且跟你的營收綁在一起,永遠在跑。當產品真的有人用,成本重心就從「蓋模型」變成「服務每一次呼叫」——硬體的優先順序,也跟著從算力極限轉向吞吐量與能耗。

同一筆錢,兩種花法

訓練 TRAINING 一次性資本支出(capex) 投入一次,得到一個模型 競爭重心轉移 推論 INFERENCE 每次呼叫的經常性成本 與營收綁定,永遠在跑

這個轉變,最近半年的幾筆動作講得很清楚——

$20B
Nvidia 收購 Groq 推論技術(2025/12)
48×
Taalas HC1 每用戶 tokens/sec vs B200(Llama 3.1 8B,同等條件)
~1/5
HC1 每 token 成本 ≈ B200 的五分之一
2026/5
Cerebras IPO,專用推論加速器重獲關注
02

通用 GPU 為什麼在推論吃虧

GPU 是為了「大量平行運算」生的,訓練時火力全開。但 Transformer(現在大模型的主流架構)推論的卡點不在算力,在資料搬運:權重和 KV cache(推論時暫存的上下文)大多放在晶片外的 HBM(高頻寬記憶體),每跑一步都要來回搬。再加上線上服務常是低批次、低延遲的零星請求,運算核心吃不滿,每個 token 攤下來的成本就壓不下去。

一顆強大的運算核心閒在原地,靠一條很長的輸送帶從遠處倉庫慢慢把資料搬過來
核心很強,但資料堆在遠處的倉庫(外部記憶體),靠細長的輸送帶慢慢運——瓶頸是這條線,不是核心本身。

瓶頸在「記憶體牆」,不在算力

核心很強,但一直在等晶片外的資料搬進來。

GPU 運算核心 使用率低 · 核心常在空等 外部記憶體 HBM 權重、KV cache 都放這 容量大,但離核心遠 頻寬/延遲瓶頸 權重搬進來 結果再寫回去 低批次、低延遲請求 → 核心吃不滿 → 每 token 成本居高不下
03

那就把模型「燒進」晶片

既然瓶頸是搬資料,最激進的解法就是不要搬:把模型權重直接燒進晶片的 Mask ROM(出廠就燒死、改不了的唯讀記憶體),動態資料走片上 SRAM(晶片內的高速記憶體,離運算最近)。Taalas 的 HC1 就是這樣——權重變成電路的一部分,省掉幾乎所有對外部記憶體的存取,能耗與成本一起壓下來。代價是晶片只能跑那一個模型,但在成熟、固定的服務上,這筆交易划算。

神經網路的圖樣被永久蝕刻、壓印進一顆矽晶片表面;一旁灰掉的外部記憶體模組被閒置不用
權重變成晶片的一部分,像印章壓進金屬。旁邊那疊外部記憶體,幾乎用不到了。

每用戶吞吐量:tokens/sec(Llama 3.1 8B)

HC1 ≈ B200 的 48 倍——其他晶片在這張圖上幾乎是貼地的細條。數字依 TrendForce 原文圖表。

Nvidia H200 230 Nvidia B200 353 Groq 594 SambaNova 932 Cerebras 1,981 Taalas HC1 16,960 每用戶每秒 token 數 · 來源:TrendForce 圖表

每百萬 tokens 成本:硬編碼 vs 通用 GPU

數字依 TrendForce 原文(Taalas HC1)。

硬編碼推論晶片 0.75¢ 通用 GPU 方案 3.79¢ 約 5 倍貴 每百萬 tokens 成本(美分)· 越短越便宜
250W
HC1 單晶片功耗 TDP(氣冷即可,免液冷)
N6
台積電 6 奈米(N6)製程,不需 HBM、不需 CoWoS
16,960
每用戶 tokens/sec(Llama 3.1 8B)
0.75¢
每百萬 tokens vs GPU 3.79¢
為什麼省:把權重燒進 Mask ROM、動態資料留在片上 SRAM,等於砍掉「搬資料進出外部記憶體」這段最耗電的工。不用 HBM、不用 CoWoS(台積電把 HBM 跟 GPU 封在一起的先進封裝),也順帶避開了當前最塞的兩個供應鏈瓶頸。
04

六大架構流派

原文把這條賽道分成六種「技術路線」。共同目標都是少搬資料、把運算貼近記憶體,差別在手法——從把模型焊死在矽裡,到乾脆做一整片晶圓。分類與規格依 TrendForce 原文圖表整理。

運算記憶體一體 CIM

把運算做進記憶體

乘加運算直接在記憶體裡做,省掉資料進出。最徹底的 Taalas 連權重都燒進矽。這也是目前最熱鬧的一類。

Taalas HC1Untether BoqueriaEtched Sohud-Matrix CorsairAxelera Metis
SRAM 優先 SRAM-First

用片上 SRAM 當主記憶體

堆大量片上 SRAM 取代外部 HBM,繞開頻寬瓶頸。

Groq LPUSambaNova SN40LMatX
Groq LPU:725 mm² · 230 MB 片上 SRAM
晶圓級整合 WSI

一整片晶圓=一顆晶片

不切晶粒,整片 12 吋晶圓做成單一顆,資料全留片上。

Cerebras WSE-3
46,225 mm² · 44 GB 片上 SRAM · 21 PB/s
RISC-V

開放指令集+網狀互連

用開放的 RISC-V 指令集搭自家互連,走可擴充、偏通用的路線。

Tenstorrent Blackhole
記憶體優先 Memory-First

以記憶體容量/頻寬為核心

設計圍著「喂飽大模型的權重與 KV cache」轉,記憶體擺第一順位。

Positron AI Atlas
張量收縮處理器

圍繞張量收縮設計

把資料路徑圍著張量收縮(tensor contraction)這個核心運算設計,主打能效。

FuriosaAI RNGD
HBM3 48 GB · 256 MB SRAM

CIM 還分三種:數位 / 類比 / 混合

CIM 是最熱鬧的一類,內部又分三條路,精度與能效各有取捨。

數位 CIM(DCIM)類比 CIM(ACIM)混合 CIM(Hybrid)
原理用數位加法樹(DAT)累加在類比域累加依顯著性(saliency)在數位/類比間動態切換
精度
能效(約 3–8 bit 精度下)

d-Matrix 走數位 CIM(DIMC);類比路線省電但精度低。資料依 TrendForce 原文圖表。

共通點:六條路線攻的都是同一個敵人——資料搬運的成本。差別只在「把運算搬多近、把模型焊多死」。越專用,越省、越快,但也越綁定單一模型。
05

玩家地圖與雙軌結局

這條賽道已經很擁擠。但 TrendForce 的判斷不是「專用取代通用」,而是雙軌並存:GPU 繼續吃訓練與多模型環境,專用架構在成熟、可預測的推論場景切出自己的地盤。

兩條並行的路:上面是車種混雜的多線道高速公路,下面是只跑同一種快速車的專用車道
不是誰取代誰:上線道是什麼車都能跑的通用 GPU,下線道是只跑一種、又快又省的專用晶片。兩條並行。

雙軌結構:各吃各的場景

通用 GPU 訓練 · 多模型環境 · 需要彈性與通用性的場景 持續主導 專用推論架構 成熟 · 可預測 · 高頻固定的推論服務(成本/能耗優先) 切出新地盤

原文點名的玩家

專用推論加速器這條路上的主要名字(綠色=目前可在公開市場接觸到):

Cerebras(2026/5 IPO) Groq Tenstorrent SambaNova d-Matrix Untether AI Etched MatX Positron AI Axelera AI FuriosaAI Hepzibah AI Taalas(HC1)

投資視角:怎麼看這條賽道

切角觀察公開市場可參與度
通用龍頭Nvidia 買下 Groq 推論技術($20B),自己補推論短板Nvidia ($NVDA) 已上市
已上市的專用股Cerebras 2026/5 IPO;綁定 OpenAI 三年 >$20B/750MWCerebras 已上市
「賣鏟子」共通受惠HC1 用 TSMC N6;多數新創也都靠先進製程代工+封裝+SRAM台積電 (2330.TW/$TSM) 等代工/封裝
多數仍未上市Taalas、d-Matrix、Untether AI、SambaNova、Groq、Etched、MatX…一級市場或潛在併購標的
玩家與技術歸類均為 TrendForce 原文說法;上市狀態與股號由公開資料對應、僅供識別。新創公司估值與上市時程變動快。

讀完這篇希望你能帶走的事

規則換位:競爭從「訓練更大」變成「推論更便宜」。推論是與營收綁定的經常性成本,硬體的優先順序跟著轉向吞吐量與能耗。

GPU 的痛點:不在算力,在資料搬運。低批次、低延遲讓核心吃不滿,每 token 成本下不來。專用晶片把模型燒進矽,省掉搬運(HC1:0.75¢ vs 3.79¢、250W、無 HBM/CoWoS)。

投資視角:公開市場直接標的少(Nvidia、Cerebras);多數玩家還在一級市場。比較穩的共通受惠是「賣鏟子」的先進製程代工與封裝(台積電 N6)。

名詞小抄:看到這些英文別慌

這篇出現的縮寫,一句話白話版。

名詞一句話白話
token模型處理文字的最小單位(約一個字或詞的一部分)。AI 服務常以「每百萬 token」計費。
KV cache模型推論時把「已經讀進去的上下文」暫存起來的記憶,對話越長佔越多。
HBM高頻寬記憶體。疊在 GPU 旁、又快又貴的記憶體,但在晶片外、用起來要來回搬。
SRAM做在晶片內部的高速記憶體,離運算最近、最省搬運,但容量小。
Mask ROM出廠時就「燒死」、之後改不了的唯讀記憶體。把模型燒進這裡=晶片只能跑那一個模型。
CoWoS台積電的 2.5D 先進封裝,HBM 要靠它跟 GPU 整合;產能是當前供應鏈瓶頸之一。
TDP晶片的散熱/功耗指標(熱設計功耗)。250W 氣冷=不必上液冷。
N6台積電 6 奈米製程。成熟、相對便宜,不是最尖端那一級。
CIM運算記憶體一體(Computing-in-Memory):把運算搬進記憶體裡做,少搬資料。
DCIM/ACIMCIM 的數位版/類比版。數位精度高、類比省電;DIMC 是 d-Matrix 的數位 CIM。
WSI晶圓級整合:整片 12 吋晶圓做成一顆超大晶片(Cerebras 的路線)。
RISC-V開放、免授權費的指令集架構,誰都能拿來設計自己的處理器。
tensor contraction張量收縮,是 AI 運算的核心數學操作(FuriosaAI 圍著它設計晶片)。
返回 Learn,看更多圖文好讀版
原創內容請參考原文 The Inference Economy Arrives · TrendForce Insights(2026/05/29)· 中文重點整理 · 插圖由 Gemini 生成