閱讀筆記 / READING NOTE 這是我讀完後做的「圖文好讀版」整理，非原創內容。原文：《What the hell is a Software Factory?》by Alex Lieberman (@businessbarista)。 ← Learn

非技術主管的導讀 · A Non-Technical Leader's Guide

到底什麼是
Software Factory（軟體工廠）？

當有公司宣稱 90% 的上線程式由 AI 寫成、頂尖工程師單人產出抵得上 20 人團隊，「軟體工廠」就不再是名詞遊戲。它是一套把寫程式從「手工」變成「產線」的運作方式——而多數公司離真正的工廠還很遠。

原文：Alex Lieberman（@businessbarista） · 整理給 GenAI 團隊

一句話

軟體工廠不是「工程師用 AI 寫快一點」，而是一條 agent 負責寫、審、測、出貨 的產線，人類從「做工」升級為「設計這條線」。別再炫耀「AI 寫了幾 % 的程式」——真正的問題是：你的產線有多少步驟，已經沒有人在裡面了？

什麼是軟體工廠？

把行話拿掉，定義很簡單：一個工程組織，建構軟體的方式從「手工藝」轉向「生產線」。

手工模式對比工廠模式 — 左：手工模式——一次手工打造一台車。右：工廠模式——標準化產線。

手工模式（Craft）

人坐下來、一行一行親手寫程式。像是一次手工打造一台訂製車：靈活，但慢、不穩定。產能取決於你能請到幾個厲害的人、他們打字多快。多數情境是量身訂做，而且大部分脈絡只活在人的腦袋裡。

工廠模式（Factory）

工作被工業化。像現代汽車組裝廠：更快、更可靠、可擴張，但需要先期投入流程與工具。有一條可重複的線（寫 → 審 → 測 → 部署 → 監控），軟體用標準化步驟通過它，搭配自動化品質檢查，盡量減少人工。人類設計這條線、處理例外，重複的事交給機器。

最極端的版本：StrongDM 的兩條鐵則

「程式不得由人類撰寫。」
「程式不得由人類審查。」

聽起來很瘋，但這正是重點（Simon Willison 寫過）。工廠不是「人類靠 AI 寫更快」，而是一套讓人類往上移一層的系統——從「動手做」變成「指揮」。

為什麼這個詞突然到處都是？

三件事同時發生。先看那些讓人沒辦法再唱反調的數字——

90%+

Anthropic 宣稱自家程式由 AI 寫成

Anthropic

75%

Google 新程式由 AI 生成（一年前還是 25%）

Google

95%

OpenAI 工程師使用內部 agent

OpenAI

+70%

深度採用者比同儕多開的 PR 數量

Lenny Rachitsky

1000+

Ryan Carson 用「Code Factory」出貨的 PR 數

@ryancarson

1 · 證據點變得無法反駁

Ryan Carson 經營他口中的「Code Factory」：agent 寫程式、審查、跑測試、分類錯誤、看著 production，而他只負責設護欄。基本上是一人軟體公司。再加上 Anthropic、Google、OpenAI 的數字，這已經不是 demo。

2 · 大公司給它氧氣

Microsoft 開始把「Agent Factory」當成軟體被建構的新方式來推。Chamath 常談他在 8090 蓋的 Software Factory。Garry Tan 用 GStack、GBrain 切入這個概念。當巨頭採用同一套語言，它就會快速主流化。

3 · 這個指標變成炫耀工具

「我們 X% 的程式由 AI 寫」成了 CEO 用來暗示自己領先的方式。這其實不是該拿來炫耀的指標——但它確實替「agentic engineering」這個題目帶來了關注。

框架：軟體工廠階梯

要蓋一座軟體工廠，先得知道自己站在哪一級。五級，0 到 4，一分鐘內就能定位自己。下面用同一個情境跑完每一級：一位客戶遇到 bug——「下單」按鈕壞了。看著每一級，哪些步驟從「人」變成「AI」。

軟體工廠階梯：從底層一個人用手工具，到頂層一個人指揮一群機器人 — 往上一級，就把一個步驟交給機器人；爬到頂端，人不再做工，而是指方向。

每往上一級，就有一個步驟交給 AI

同一條產線的五個步驟，由誰負責—— 人 · 人＋AI · AI

工匠 Artisan全是人

AI 完全缺席。每一步都是人。

下單按鈕壞了：客戶寄信給客服 → 工程師輾轉聽到 → 重現問題 → 親手寫修復 → 另一位工程師讀 code 審查 → 有人手動測試 → 人類部署。

輔助 Assisted多數公司在這

完全一樣的步驟、一樣的人，差別只在工程師用 AI copilot 寫得快一點。產能上升，但流程沒變——人仍然「做」並「把關」每一步。

下單按鈕壞了：同 L0，唯一不同是工程師用 AI 輔助把修復寫快一點。本質上是「比較聰明的自動完成」。

委派 Delegated多數「AI 先行」公司卡在這

工程師把 bug 交給 agent。Agent 自己寫修復、自己開 PR。但每個 PR 合併前仍要人讀、人核准。槓桿是真的——但人類還是所有事情的閘門。因為產出大增，會讓人誤以為已經很先進。

下單按鈕壞了：工程師把 bug 丟給 agent，agent 寫好修復、開好 PR；人類審查後才合併。

監督工廠 Supervised Factory極少組織真的在這

一個 agent 監控 production、抓到錯誤、分類它。一個 coding agent 寫修復，第二個 agent 審查，測試自動跑。若是低風險且全部通過，就直接出貨——這個 bug 全程沒有人在迴圈裡。人類設護欄（「通過測試與審查的低風險修復自動合併；碰到金流的一律升級」），只在有風險時被拉進來。這是 Carson 的 Code Factory，是 StrongDM。

下單按鈕壞了：系統先發現並 triage → agent 寫修復 → 另一個 agent 審查 → 測試自動通過 → 低風險直接上線，沒有人介入。

自主工廠 Autonomous Factory幾乎沒人真正到這

那個 bug 被抓到、修好、審查、測試、上線——團隊裡還沒人知道它發生過。人類不在看產線，他們在決定產品接下來該變成什麼。幾乎沒有人真正在 L4，但這是整個產業指向的方向。

下單按鈕壞了：整條線自己跑完。事後團隊才（可能）看到一則紀錄。

找出你在階梯上的位置

先做這份 60 秒自評，再對照下面 Lieberman 的完整提問清單。

60 秒自評：你的組織在第幾級？

1. 修 bug 或做小功能時，第一版是誰寫的？

人親手寫人指揮 agent 寫

2. Agent 能不能自己開一個 PR？

不能，每行都人寫可以，agent 自己開

3. 有沒有規則，讓「低風險變更」不經過人就自動上線？

沒有，每個 PR 都要人核准有，低風險自動合併

4. Production 出錯時，先發現的是人還是系統？是誰 triage？

人發現、人 triage 系統發現並 triage

5. 有沒有可能——沒有任何人按啟動鍵，整條線自己跑完？

不行，總要有人觸發可以，連觸發都自動

Lieberman 的完整定位提問

有多少比例的 PR，沒有人審查就上線了？如果是零，你在 L1。
修 bug／做小功能時，第一版是「人」還是「人指揮 agent」？（人＝L0/L1，人指揮 agent＝L2 以上）
Agent 能自己開 PR 嗎？還是每個變更都人手寫？（這是 L1 與 L2 的分界）
有沒有「低風險自動上線、高風險升級」的規則？是誰訂的？（這是 L3 的核心）
Production 出事時，先發現的是人還是系統？誰來 triage？（人＝早期；系統抓到並 triage＝L3）
每次變更測試都自動跑嗎？系統能不能在沒有人介入下擋掉壞的變更？（看品質閘門是真的，還是只是有人按核准）
Agent 出貨了錯的東西，你多快能抓到並回滾？（安全網決定你能安全爬多高）
你的 AI 工具能安全看到自家 codebase、文件、系統，還是只有通用公開知識？（通用＝在你修好前都被封頂）
有沒有一個內部平台讓 agent 接上去，還是每個工程師各自接線？（依 DORA，這是最大的分水嶺）
如果明天拿走所有人的 AI 工具，會變的是流程，還是只有速度？（只有速度＝裝了更好自動完成的 L1；流程會垮＝你真的工業化了）
現在的瓶頸在哪：寫程式，還是審查與出貨？（還在寫＝早期；移到下游＝成熟。這個轉移就是整件事的重點）

怎麼往上爬

一次只移除一個步驟裡的人，而且只在你的安全網（測試、版本控制、內部平台）撐得住的速度下移除。

0 → 1

把 AI 放進每個工程師手裡

這一跳主要是組織問題，不是技術問題。給每個工程師一個 coding 助手，明確說清楚哪些工具是「核可的」、且鼓勵在真實工作上實驗，並清掉那些悄悄拖住採用的資安與法務阻力。這是最容易的一階，也是多數公司以為自己已經爬過的一階——但沒人打開的授權，仍然是 L0。

前置：清楚的 AI 立場，以及團隊真的被允許在真實 codebase 上用的工具。

1 → 2

讓 agent 擁有一整張 ticket

現在工程師只是用 AI 打字打更快，這就是天花板。動作是：把一個完整的工作單位交給 agent。挑你測試最完整、風險最低的部分，把一整張 bug ticket 指派給 agent——它寫修復、開 PR，人來審查。對接下來十個 bug 都這樣做。卡點幾乎從來不是技術，而是讓團隊停止親手寫每一行。

前置：清楚、範圍明確的 ticket，加上足夠的測試覆蓋，讓人能快速「信任但驗證」。

2 → 3

幹掉審查瓶頸

現在的限制是你——一個核准每一個 PR 的人。動作是讓低風險變更不經過人就上線。具體做法：寫下你的「低風險」定義（例如不碰金流、認證、資料遷移）、架一個第二 agent 去審查第一個 agent 的工作、要求自動測試套件通過，三者全過就自動合併，其餘升級給人。這是最難的一跳，需要真正的基建。依 DORA，優質的內部平台是「靠 AI 勝出」與「被 AI 埋掉」兩種團隊之間最大的分水嶺。

前置：你真的敢押注的自動測試，以及一個 agent 能接上去的內部平台。

3 → 4

移除最後一個人為觸發

L3 還是人按下啟動鍵；L4 是 agent 盯著 production、抓到 bug、開自己的 ticket、跑完整條線，而人類在決定接下來要做什麼。把這個迴圈關起來，主要靠監控與信任，不是更好的模型。老實說，多數公司不該急著衝這裡——任何碰到信任、金錢、安全的東西，可能很長一段時間都該留一個人在迴圈裡。但你該知道這是前沿移動的方向。

前置：agent 能據以行動的 production 監控，以及你敢放手不看的護欄。

你公司裡，下一個工廠是哪個職能？

工程只是第一座工廠。Carson 說：「先把你的 Code Factory 架好，因為下一步是 Company Factory。」但不是每個職能都同樣準備好——決定的，是一個主要條件加上幾個次要條件。

最關鍵的一個字：可驗證性（Verifiability）

Karpathy 講得最好：傳統軟體自動化你能「明確規格」的事；AI 自動化你能「驗證」的事。如果一件任務有自動的成功訊號，機器就能反覆練習，你也能信任它的產出。這正是工程先走的原因——測試要嘛過、要嘛不過，有 ground truth。你叫 agent 修 bug，可以證明它有沒有修好；你叫它給架構建議，沒有訊號，它可能很神，也可能悄悄錯，而你幾個月後才會發現。

一個職能「工廠化準備度」的四個條件

可驗證的產出——能不能自動檢查工作對不對？（最大的單一因素）
數位的輸入與輸出——工作發生在軟體裡，不是握手或一個實體房間。
量與重複性——有夠多重複的 reps，值得為它蓋一條線。
可逆性——機器做錯時，能不能便宜地抓到並回滾？

怎麼用

把你公司的每個職能丟進這四個條件，它們會自動排到一條光譜上（見下圖）。越靠左，越該先在那裡蓋工廠；越靠右，「對」越主觀、或要很久以後才看得出來，現階段越不適合。

對 GenAI 團隊來說，這張光譜也是「先自動化哪個內部流程」的優先序地圖。

職能的工廠化準備度光譜

想深入，該追蹤誰

Lieberman 真正會看的短名單。

Ryan Carson @ryancarson

最清楚的真實案例：一座運作中的 Code Factory。他公開的是實際設定，不是理論。

Simon Willison @simonw

關於 agentic coding 能做什麼、不能做什麼，最可信、最不灌水的聲音。

Peter Steinberger @steipete

OpenClaw 作者，持續推 agentic coding 的邊界。

Lenny Rachitsky @lennysan

最會把前沿組織（OpenAI、Anthropic）在做的事，翻譯成商業語言。

Santiago @svpino

你指定的懷疑論者。他會戳破「90% 程式」這類宣稱，讓你保持誠實。

Andrej Karpathy @karpathy

看深層的「為什麼」：哪些工作 AI 能吸收、哪些不能，以及原因。

DORA 報告 dora.dev

不是人，但這是關於「哪些團隊靠 AI 勝出、哪些被埋掉」最有實證基礎的一份讀物。

如果你只記得一件事

軟體工廠不是「工程師用 AI」，而是一條 agent 寫、審、測、出貨，人類負責設計這條線而非在線上做工的生產線。

別再炫耀「AI 寫了幾 % 的程式」。問真正的問題：你的產線有多少跑起來是沒有人在裡面的？

你靠「一次移除一個步驟裡的人」往上爬，而且只快到你的安全網（測試、版本控制、內部平台）撐得住。工程只是第一座工廠，下一座是任何「可驗證、數位化、可重複、可逆」的職能——在競爭對手之前去找到它。

返回 Learn，看更多圖文好讀版

原文 What the hell is a Software Factory? by Alex Lieberman · 中文圖文整理：Jazz Lien · 插圖由 Gemini 生成