TECH EXPLAINER · AI 晶片 · 投資視角

推論經濟來了，
AI 晶片規則重寫

過去三年比的是「誰能訓練更大的模型」。現在戰場換了：模型每被呼叫一次都要花錢，推論變成跟營收直接綁定的經常性成本。於是晶片不再拚算力極限，而是拚每個 token 多便宜、多省電——一批專用晶片正用 GPU 五分之一的成本，搶這塊新市場。

原創內容請參考原文： The Inference Economy Arrives — TrendForce Insights（2026/05/29）

tl;dr

競爭重心從訓練移到推論。訓練是一次性資本支出，推論是每次 API 呼叫的經常性成本，直接吃營收。通用 GPU 在低批次、低延遲的推論場景吃不滿、每 token 成本下不來；新一批專用推論晶片把模型權重直接燒進矽（Taalas HC1：TSMC N6、無 HBM／CoWoS、250W，每百萬 token 0.75 美分 vs GPU 3.79）。結局不是取代，而是通用＋專用雙軌並存：GPU 顧訓練與多模型，專用晶片吃成熟、可預測的推論。

遊戲規則被改寫了

差別說穿了很簡單：訓練是一次性的研究支出，做完一個模型就結束；推論是每一次 API 呼叫都要付的錢，而且跟你的營收綁在一起，永遠在跑。當產品真的有人用，成本重心就從「蓋模型」變成「服務每一次呼叫」——硬體的優先順序，也跟著從算力極限轉向吞吐量與能耗。

同一筆錢，兩種花法

這個轉變，最近半年的幾筆動作講得很清楚——

$20B

Nvidia 收購 Groq 推論技術（2025/12）

48×

Taalas HC1 每用戶 tokens/sec vs B200（Llama 3.1 8B，同等條件）

~1/5

HC1 每 token 成本 ≈ B200 的五分之一

2026/5

Cerebras IPO，專用推論加速器重獲關注

通用 GPU 為什麼在推論吃虧

GPU 是為了「大量平行運算」生的，訓練時火力全開。但 Transformer（現在大模型的主流架構）推論的卡點不在算力，在資料搬運：權重和 KV cache（推論時暫存的上下文）大多放在晶片外的 HBM（高頻寬記憶體），每跑一步都要來回搬。再加上線上服務常是低批次、低延遲的零星請求，運算核心吃不滿，每個 token 攤下來的成本就壓不下去。

一顆強大的運算核心閒在原地，靠一條很長的輸送帶從遠處倉庫慢慢把資料搬過來 — 核心很強，但資料堆在遠處的倉庫（外部記憶體），靠細長的輸送帶慢慢運——瓶頸是這條線，不是核心本身。

瓶頸在「記憶體牆」，不在算力

核心很強，但一直在等晶片外的資料搬進來。

那就把模型「燒進」晶片

既然瓶頸是搬資料，最激進的解法就是不要搬：把模型權重直接燒進晶片的 Mask ROM（出廠就燒死、改不了的唯讀記憶體），動態資料走片上 SRAM（晶片內的高速記憶體，離運算最近）。Taalas 的 HC1 就是這樣——權重變成電路的一部分，省掉幾乎所有對外部記憶體的存取，能耗與成本一起壓下來。代價是晶片只能跑那一個模型，但在成熟、固定的服務上，這筆交易划算。

神經網路的圖樣被永久蝕刻、壓印進一顆矽晶片表面；一旁灰掉的外部記憶體模組被閒置不用 — 權重變成晶片的一部分，像印章壓進金屬。旁邊那疊外部記憶體，幾乎用不到了。

每用戶吞吐量：tokens/sec（Llama 3.1 8B）

HC1 ≈ B200 的 48 倍——其他晶片在這張圖上幾乎是貼地的細條。數字依 TrendForce 原文圖表。

每百萬 tokens 成本：硬編碼 vs 通用 GPU

數字依 TrendForce 原文（Taalas HC1）。

250W

HC1 單晶片功耗 TDP（氣冷即可，免液冷）

台積電 6 奈米（N6）製程，不需 HBM、不需 CoWoS

16,960

每用戶 tokens/sec（Llama 3.1 8B）

0.75¢

每百萬 tokens vs GPU 3.79¢

為什麼省：把權重燒進 Mask ROM、動態資料留在片上 SRAM，等於砍掉「搬資料進出外部記憶體」這段最耗電的工。不用 HBM、不用 CoWoS（台積電把 HBM 跟 GPU 封在一起的先進封裝），也順帶避開了當前最塞的兩個供應鏈瓶頸。

六大架構流派

原文把這條賽道分成六種「技術路線」。共同目標都是少搬資料、把運算貼近記憶體，差別在手法——從把模型焊死在矽裡，到乾脆做一整片晶圓。分類與規格依 TrendForce 原文圖表整理。

運算記憶體一體 CIM

把運算做進記憶體

乘加運算直接在記憶體裡做，省掉資料進出。最徹底的 Taalas 連權重都燒進矽。這也是目前最熱鬧的一類。

Taalas HC1Untether BoqueriaEtched Sohud-Matrix CorsairAxelera Metis

SRAM 優先 SRAM-First

用片上 SRAM 當主記憶體

堆大量片上 SRAM 取代外部 HBM，繞開頻寬瓶頸。

Groq LPUSambaNova SN40LMatX

Groq LPU：725 mm² · 230 MB 片上 SRAM

晶圓級整合 WSI

一整片晶圓＝一顆晶片

不切晶粒，整片 12 吋晶圓做成單一顆，資料全留片上。

Cerebras WSE-3

46,225 mm² · 44 GB 片上 SRAM · 21 PB/s

RISC-V

開放指令集＋網狀互連

用開放的 RISC-V 指令集搭自家互連，走可擴充、偏通用的路線。

Tenstorrent Blackhole

記憶體優先 Memory-First

以記憶體容量／頻寬為核心

設計圍著「喂飽大模型的權重與 KV cache」轉，記憶體擺第一順位。

Positron AI Atlas

張量收縮處理器

圍繞張量收縮設計

把資料路徑圍著張量收縮（tensor contraction）這個核心運算設計，主打能效。

FuriosaAI RNGD

HBM3 48 GB · 256 MB SRAM

CIM 還分三種：數位 / 類比 / 混合

CIM 是最熱鬧的一類，內部又分三條路，精度與能效各有取捨。

	數位 CIM（DCIM）	類比 CIM（ACIM）	混合 CIM（Hybrid）
原理	用數位加法樹（DAT）累加	在類比域累加	依顯著性（saliency）在數位／類比間動態切換
精度	高	低	中
能效	低	高（約 3–8 bit 精度下）	中

d-Matrix 走數位 CIM（DIMC）；類比路線省電但精度低。資料依 TrendForce 原文圖表。

共通點：六條路線攻的都是同一個敵人——資料搬運的成本。差別只在「把運算搬多近、把模型焊多死」。越專用，越省、越快，但也越綁定單一模型。

玩家地圖與雙軌結局

這條賽道已經很擁擠。但 TrendForce 的判斷不是「專用取代通用」，而是雙軌並存：GPU 繼續吃訓練與多模型環境，專用架構在成熟、可預測的推論場景切出自己的地盤。

兩條並行的路：上面是車種混雜的多線道高速公路，下面是只跑同一種快速車的專用車道 — 不是誰取代誰：上線道是什麼車都能跑的通用 GPU，下線道是只跑一種、又快又省的專用晶片。兩條並行。

雙軌結構：各吃各的場景

原文點名的玩家

專用推論加速器這條路上的主要名字（綠色＝目前可在公開市場接觸到）：

Cerebras（2026/5 IPO） Groq Tenstorrent SambaNova d-Matrix Untether AI Etched MatX Positron AI Axelera AI FuriosaAI Hepzibah AI Taalas（HC1）

投資視角：怎麼看這條賽道

切角	觀察	公開市場可參與度
通用龍頭	Nvidia 買下 Groq 推論技術（$20B），自己補推論短板	Nvidia ($NVDA) 已上市
已上市的專用股	Cerebras 2026/5 IPO；綁定 OpenAI 三年 >$20B／750MW	Cerebras 已上市
「賣鏟子」共通受惠	HC1 用 TSMC N6；多數新創也都靠先進製程代工＋封裝＋SRAM	台積電 (2330.TW／$TSM) 等代工／封裝
多數仍未上市	Taalas、d-Matrix、Untether AI、SambaNova、Groq、Etched、MatX…	一級市場或潛在併購標的

玩家與技術歸類均為 TrendForce 原文說法；上市狀態與股號由公開資料對應、僅供識別。新創公司估值與上市時程變動快。

讀完這篇希望你能帶走的事

規則換位：競爭從「訓練更大」變成「推論更便宜」。推論是與營收綁定的經常性成本，硬體的優先順序跟著轉向吞吐量與能耗。

GPU 的痛點：不在算力，在資料搬運。低批次、低延遲讓核心吃不滿，每 token 成本下不來。專用晶片把模型燒進矽，省掉搬運（HC1：0.75¢ vs 3.79¢、250W、無 HBM／CoWoS）。

投資視角：公開市場直接標的少（Nvidia、Cerebras）；多數玩家還在一級市場。比較穩的共通受惠是「賣鏟子」的先進製程代工與封裝（台積電 N6）。

名詞小抄：看到這些英文別慌

這篇出現的縮寫，一句話白話版。

名詞	一句話白話
token	模型處理文字的最小單位（約一個字或詞的一部分）。AI 服務常以「每百萬 token」計費。
KV cache	模型推論時把「已經讀進去的上下文」暫存起來的記憶，對話越長佔越多。
HBM	高頻寬記憶體。疊在 GPU 旁、又快又貴的記憶體，但在晶片外、用起來要來回搬。
SRAM	做在晶片內部的高速記憶體，離運算最近、最省搬運，但容量小。
Mask ROM	出廠時就「燒死」、之後改不了的唯讀記憶體。把模型燒進這裡＝晶片只能跑那一個模型。
CoWoS	台積電的 2.5D 先進封裝，HBM 要靠它跟 GPU 整合；產能是當前供應鏈瓶頸之一。
TDP	晶片的散熱／功耗指標（熱設計功耗）。250W 氣冷＝不必上液冷。
N6	台積電 6 奈米製程。成熟、相對便宜，不是最尖端那一級。
CIM	運算記憶體一體（Computing-in-Memory）：把運算搬進記憶體裡做，少搬資料。
DCIM／ACIM	CIM 的數位版／類比版。數位精度高、類比省電；DIMC 是 d-Matrix 的數位 CIM。
WSI	晶圓級整合：整片 12 吋晶圓做成一顆超大晶片（Cerebras 的路線）。
RISC-V	開放、免授權費的指令集架構，誰都能拿來設計自己的處理器。
tensor contraction	張量收縮，是 AI 運算的核心數學操作（FuriosaAI 圍著它設計晶片）。

返回 Learn，看更多圖文好讀版

原創內容請參考原文 The Inference Economy Arrives · TrendForce Insights（2026/05/29）· 中文重點整理 · 插圖由 Gemini 生成